Elasticsearch 教程：从零开始学习

2025-2-26

1. 引言

Elasticsearch 是一个基于 Lucene 库的开源分布式搜索引擎。它提供了一个分布式、多租户能力的全文搜索引擎，具有 HTTP Web 接口和无模式 JSON 文档。Elasticsearch 以其高性能、可扩展性和易用性而闻名，广泛应用于日志分析、全文搜索、安全分析、业务分析等领域。本教程旨在为初学者提供一个全面的 Elasticsearch 入门指南，涵盖从基本概念到实际操作的各个方面。

2. 核心概念

理解 Elasticsearch 的核心概念是掌握它的关键。以下是几个最重要的概念：

节点 (Node): 节点是 Elasticsearch 集群中的单个服务器实例。每个节点都存储数据并参与集群的索引和搜索功能。
集群 (Cluster): 集群是由一个或多个节点组成的集合，这些节点共同存储所有数据并提供联合索引和搜索功能。集群由一个唯一的名称标识。
索引 (Index): 索引是具有相似特征的文档集合。例如，可以有一个客户数据的索引，另一个产品目录的索引。索引在 Elasticsearch 中由一个名称标识（必须是小写），该名称用于在对其中的文档执行索引、搜索、更新和删除操作时引用此索引。
类型 (Type): （在 7.x 版本中已弃用） 类型曾用于表示索引中不同类别的文档。
文档 (Document): 文档是可以被索引的基本信息单元。例如，可以有一个客户文档、一个产品文档。文档以 JSON（JavaScript Object Notation）格式表示，这是一种无处不在的互联网数据交换格式。
分片 (Shard): Elasticsearch 提供了将索引细分为多个部分（称为分片）的功能。每个分片本身都是一个完全功能性和独立的“索引”，可以托管在集群中的任何节点上。分片的主要目的是实现水平扩展和提高并行处理能力。
副本 (Replica): Elasticsearch 允许创建分片的一个或多个副本。副本的主要目的是提供高可用性（在分片/节点故障的情况下）和提高搜索性能（因为搜索可以在所有副本上并行执行）。

3. 安装与配置

Elasticsearch 的安装过程相对简单。可以从 Elasticsearch 官网下载适用于操作系统的安装包。

3.1. 下载与解压

从官网下载对应平台的压缩包，然后解压到指定目录。

3.2. 启动

进入 Elasticsearch 的 bin 目录，执行 elasticsearch（Linux/macOS）或 elasticsearch.bat（Windows）命令即可启动。

3.3. 验证

在浏览器中访问 http://localhost:9200/，如果看到一个包含集群信息的 JSON 响应，则表示 Elasticsearch 已成功启动。

4. 基本操作：CRUD

Elasticsearch 通过 RESTful API 进行操作。可以使用任何 HTTP 客户端（如 curl、Postman 或 Kibana 的 Dev Tools）来与 Elasticsearch 交互。

4.1. 创建索引 (Create Index)

http PUT /my_index { "settings": { "number_of_shards": 1, "number_of_replicas": 1 } }

这段代码创建了一个名为 my_index 的索引，设置了一个主分片和一个副本分片。

4.2. 索引文档 (Index Document)

http PUT /my_index/_doc/1 { "title": "Elasticsearch入门教程", "content": "这是一篇关于Elasticsearch的入门教程。" }

这段代码向 my_index 索引中添加了一个 ID 为 1 的文档。

4.3. 获取文档 (Get Document)

http GET /my_index/_doc/1

这段代码获取 my_index 索引中 ID 为 1 的文档。

4.4. 更新文档 (Update Document)

http POST /my_index/_update/1 { "doc": { "content": "这是一篇更新后的Elasticsearch入门教程。" } }

这段代码更新 my_index 索引中 ID 为 1 的文档的 content 字段。

4.5. 删除文档 (Delete Document)

http DELETE /my_index/_doc/1

这段代码删除 my_index 索引中 ID 为 1 的文档。

4.6. 删除索引 (Delete Index)

http DELETE /my_index

该代码会删除整个索引以及索引内的数据。

5. 搜索

Elasticsearch 最强大的功能是其搜索能力。

5.1. 基本搜索

http GET /my_index/_search { "query": { "match": { "content": "Elasticsearch" } } }

这段代码搜索 my_index 索引中 content 字段包含 "Elasticsearch" 的文档。

5.2. 更复杂的查询

Elasticsearch 提供了丰富的查询 DSL（Domain Specific Language），可以构建各种复杂的查询，如：

term 查询： 精确匹配。
range 查询： 范围查询。
bool 查询： 组合多个查询条件。
fuzzy 查询： 模糊查询。
wildcard 查询：通配符查询

这些查询方式可以灵活地组合,应对各式各样的搜索需求。

6. 映射 (Mapping)

映射定义了索引中字段的数据类型和属性。正确设置映射对于性能和搜索准确性至关重要。

http PUT /my_index { "mappings": { "properties": { "title": { "type": "text" }, "content": { "type": "text", "analyzer": "standard" }, "timestamp": { "type": "date" } } } }

这段代码定义了 my_index 索引的映射，指定了 title、content 和 timestamp 字段的数据类型和分析器。

7. 对比其他搜索技术

许多技术可以用于构建搜索功能，Elasticsearch 只是其中之一。以下是与其他一些常见搜索技术的比较：

关系型数据库 (如 MySQL, PostgreSQL): 关系型数据库的 LIKE 查询在处理大量数据时性能较差，且不支持复杂的全文搜索功能。
Apache Solr: Solr 也是一个基于 Lucene 的开源搜索引擎，与 Elasticsearch 类似。主要区别：
- 架构： Elasticsearch 更加强调分布式和易于扩展，而 Solr 更加传统。
- 社区和生态系统： Elasticsearch 的社区更加活跃，生态系统更加丰富（如 Kibana, Logstash, Beats）。
- 易用性: Elasticsearch配置和使用的过程,相对更加简单。
专用搜索引擎服务 (如 Algolia, Amazon CloudSearch): 这些服务提供了托管的搜索引擎解决方案，通常更易于使用，但可能缺乏 Elasticsearch 的灵活性和可定制性。

选择哪种技术取决于具体的应用场景和需求。如果需要高性能、可扩展、灵活的全文搜索功能，Elasticsearch 通常是一个不错的选择。

8. 进阶主题

本教程仅涵盖了 Elasticsearch 的基础知识。要深入了解 Elasticsearch，还可以探索以下主题：

聚合 (Aggregations): 用于数据分析和统计。
集群管理： 监控、维护和优化 Elasticsearch 集群。
安全： 使用 X-Pack 或其他安全插件保护 Elasticsearch 集群。
高级查询： 更复杂的查询语法和技巧。
插件： 扩展 Elasticsearch 的功能。

9. 后续发展

Elasticsearch 及其周边生态（Elastic Stack）在不断发展和完善。新的特性和功能不断涌现，保持学习和关注最新动态是充分利用 Elasticsearch 能力的关键。可以通过阅读官方文档、参与社区讨论、关注技术博客等方式来了解 Elasticsearch 的最新进展。

作者：admin

链接：https://hostlocvps.com/2025/02/26/elasticsearch-%e6%95%99%e7%a8%8b%ef%bc%9a%e4%bb%8e%e9%9b%b6%e5%bc%80%e5%a7%8b%e5%ad%a6%e4%b9%a0/

文章版权归作者所有，未经允许请勿转载。

THE END

GitHub优化工具：Boost让你的工作更高效

<<上一篇

今日GitHub热榜项目 - 2025年02月27日

下一篇>>