Elasticsearch入门教程：快速上手实战

2025-1-19

Elasticsearch 入门教程：快速上手实战

Elasticsearch 是一个基于 Lucene 库的开源搜索引擎，它提供了一个分布式、RESTful 风格的搜索和数据分析引擎，能够处理大规模数据，并提供近乎实时的搜索能力。它被广泛应用于日志分析、全文搜索、安全情报分析、业务数据分析、基础设施指标分析和容器监控等场景。

本教程将带领你快速入门 Elasticsearch，并通过实战练习，让你掌握 Elasticsearch 的核心概念和基本操作。

一、Elasticsearch 的核心概念

在开始学习 Elasticsearch 之前，我们需要了解一些核心概念：

1. 节点 (Node)

一个节点是一个 Elasticsearch 实例，通常运行在一台服务器上。多个节点可以组成一个集群。

2. 集群 (Cluster)

一个集群由一个或多个节点组成，它们共同存储数据并提供搜索和索引功能。每个集群都有一个唯一的名称，默认名称为 "elasticsearch"。

3. 索引 (Index)

索引是具有相似结构的文档集合。例如，你可以有一个客户数据的索引，一个产品目录的索引，以及一个订单数据的索引。索引由一个名称（必须为全小写）来标识。

4. 类型 (Type)

类型是索引的逻辑分类或分区，允许你在一个索引中存储多种类型的文档。例如，在一个名为 "users" 的索引中，你可以定义 "admin" 和 "customer" 两种类型。注意：从 Elasticsearch 7.0 开始，类型的概念已被弃用，并在 8.0 版本中完全移除。

5. 文档 (Document)

文档是 Elasticsearch 中存储的基本信息单元，以 JSON 格式表示。每个文档都属于一个类型，并存储在一个索引中。每个文档都有一个唯一的 ID，可以是 Elasticsearch 自动生成的，也可以是用户指定的。

6. 字段 (Field)

字段是文档的组成部分，每个字段都有一个名称和一个值。例如，一个客户文档可能包含 "name"、"age" 和 "email" 等字段。

7. 映射 (Mapping)

映射定义了索引中每个字段的数据类型和属性。它类似于数据库中的 schema。映射可以在创建索引时定义，也可以在添加新字段时动态生成。

8. 分片 (Shard)

为了提高性能和可扩展性，Elasticsearch 可以将一个索引分成多个分片。每个分片都是一个独立的 Lucene 索引，可以存储在集群中的任何节点上。分片分为主分片 (Primary Shard) 和副本分片 (Replica Shard)。

9. 副本 (Replica)

副本是分片的副本，用于提供高可用性和数据冗余。当一个节点发生故障时，Elasticsearch 可以使用副本分片来继续提供服务。

二、安装和配置 Elasticsearch

1. 下载 Elasticsearch

你可以从 Elasticsearch 官网下载最新版本的 Elasticsearch：https://www.elastic.co/downloads/elasticsearch

根据你的操作系统选择合适的版本。

2. 安装 Elasticsearch

Linux/macOS: 解压下载的压缩包到你想要安装的目录。
Windows: 解压下载的 zip 文件到你想要安装的目录。

3. 配置 Elasticsearch

Elasticsearch 的配置文件位于 config 目录下，主要配置文件为 elasticsearch.yml。

以下是一些常用的配置选项：

cluster.name: 集群名称，默认为 "elasticsearch"。
node.name: 节点名称，默认为节点的机器名。
path.data: 数据存储目录，默认为 data 目录。
path.logs: 日志存储目录，默认为 logs 目录。
network.host: 绑定的 IP 地址，默认为 127.0.0.1。
http.port: HTTP 端口，默认为 9200。

你可以根据需要修改这些配置选项。

4. 启动 Elasticsearch

Linux/macOS: 进入 Elasticsearch 的 bin 目录，执行 ./elasticsearch 命令。
Windows: 进入 Elasticsearch 的 bin 目录，双击 elasticsearch.bat 文件。

如果一切正常，你会在控制台看到 Elasticsearch 启动的日志信息，并监听在 9200 端口。

5. 验证安装

在浏览器中访问 http://localhost:9200/，如果你看到类似以下的 JSON 输出，说明 Elasticsearch 安装成功：

json { "name" : "your-node-name", "cluster_name" : "elasticsearch", "cluster_uuid" : "...", "version" : { "number" : "...", "build_flavor" : "default", "build_type" : "...", "build_hash" : "...", "build_date" : "...", "build_snapshot" : false, "lucene_version" : "...", "minimum_wire_compatibility_version" : "...", "minimum_index_compatibility_version" : "..." }, "tagline" : "You Know, for Search" }

三、基本操作

Elasticsearch 提供了 RESTful API 来进行各种操作，我们可以使用 curl 命令或者任何 HTTP 客户端工具来与 Elasticsearch 进行交互。

以下是一些常用的基本操作：

1. 创建索引

bash curl -X PUT "localhost:9200/my_index"

这个命令创建了一个名为 my_index 的索引。

2. 查看索引

bash curl -X GET "localhost:9200/_cat/indices?v"

这个命令列出了所有索引的信息，v 参数表示显示表头。

3. 删除索引

bash curl -X DELETE "localhost:9200/my_index"

这个命令删除了名为 my_index 的索引。

4. 插入文档

bash curl -X POST "localhost:9200/my_index/_doc/1" -H 'Content-Type: application/json' -d' { "name": "John Doe", "age": 30, "email": "[email protected]" } '

这个命令向 my_index 索引中插入了一个 ID 为 1 的文档。_doc 是文档的端点，在 7.0 之后的版本中，推荐使用 _doc。

5. 获取文档

bash curl -X GET "localhost:9200/my_index/_doc/1"

这个命令获取了 ID 为 1 的文档。

6. 更新文档

bash curl -X POST "localhost:9200/my_index/_update/1" -H 'Content-Type: application/json' -d' { "doc": { "age": 31 } } '

这个命令更新了 ID 为 1 的文档的 age 字段。

7. 删除文档

bash curl -X DELETE "localhost:9200/my_index/_doc/1"

这个命令删除了 ID 为 1 的文档。

8. 搜索文档

bash curl -X GET "localhost:9200/my_index/_search?q=name:John"

这个命令搜索 name 字段包含 "John" 的文档。

bash curl -X GET "localhost:9200/my_index/_search" -H 'Content-Type: application/json' -d' { "query": { "match": { "name": "John Doe" } } } '

这个命令使用 match 查询搜索 name 字段匹配 "John Doe" 的文档。

四、实战练习：创建一个简单的博客索引

现在，让我们通过一个实战练习来巩固所学知识。我们将创建一个简单的博客索引，并进行一些基本的 CRUD 操作。

1. 创建索引

首先，创建一个名为 blog 的索引：

bash curl -X PUT "localhost:9200/blog"

2. 定义映射

然后，为 blog 索引定义映射，指定每个字段的数据类型：

bash curl -X PUT "localhost:9200/blog/_mapping" -H 'Content-Type: application/json' -d' { "properties": { "title": { "type": "text" }, "content": { "type": "text" }, "author": { "type": "keyword" }, "publish_date": { "type": "date" } } } '

这个映射定义了四个字段：

title: 博客标题，类型为 text，用于全文搜索。
content: 博客内容，类型为 text，用于全文搜索。
author: 博客作者，类型为 keyword，用于精确匹配。
publish_date: 发布日期，类型为 date，用于日期相关的操作。

3. 插入文档

现在，插入一些博客文章到索引中：

```bash
curl -X POST "localhost:9200/blog/_doc/1" -H 'Content-Type: application/json' -d'
{
"title": "Elasticsearch 入门教程",
"content": "这是一篇关于 Elasticsearch 的入门教程...",
"author": "张三",
"publish_date": "2023-10-26"
}
'

curl -X POST "localhost:9200/blog/_doc/2" -H 'Content-Type: application/json' -d'
{
"title": "Lucene 的基本概念",
"content": "Lucene 是一个高性能的全文检索引擎...",
"author": "李四",
"publish_date": "2023-10-27"
}
'

curl -X POST "localhost:9200/blog/_doc/3" -H 'Content-Type: application/json' -d'
{
"title": "如何使用 Elasticsearch 进行数据分析",
"content": "Elasticsearch 不仅可以用于搜索，还可以进行数据分析...",
"author": "张三",
"publish_date": "2023-10-28"
}
'
```

4. 搜索文档

现在，我们可以进行一些搜索操作了。

搜索标题包含 "Elasticsearch" 的文章：

bash curl -X GET "localhost:9200/blog/_search?q=title:Elasticsearch"

搜索作者为 "张三" 的文章：

bash curl -X GET "localhost:9200/blog/_search?q=author:张三"

搜索发布日期在 2023-10-27 之后的文章：

bash curl -X GET "localhost:9200/blog/_search" -H 'Content-Type: application/json' -d' { "query": { "range": { "publish_date": { "gte": "2023-10-27" } } } } '

使用 match 查询搜索内容包含 "搜索" 和 "引擎" 的文章：

bash curl -X GET "localhost:9200/blog/_search" -H 'Content-Type: application/json' -d' { "query": { "match": { "content": "搜索引擎" } } } '

五、总结

本教程介绍了 Elasticsearch 的核心概念、安装配置和基本操作，并通过一个简单的博客索引实战练习，帮助你快速上手 Elasticsearch。

当然，Elasticsearch 的功能远不止这些，它还提供了丰富的查询语法、聚合分析、集群管理等高级功能。希望本教程能为你打开 Elasticsearch 的大门，让你能够进一步探索 Elasticsearch 的强大功能，并在实际应用中发挥它的作用。

建议你继续阅读 Elasticsearch 的官方文档，深入学习更多高级特性和最佳实践：https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html

希望你能在 Elasticsearch 的学习之旅中不断进步!

作者：admin

链接：https://hostlocvps.com/2025/01/19/elasticsearch%e5%85%a5%e9%97%a8%e6%95%99%e7%a8%8b%ef%bc%9a%e5%bf%ab%e9%80%9f%e4%b8%8a%e6%89%8b%e5%ae%9e%e6%88%98/

文章版权归作者所有，未经允许请勿转载。

THE END

HTTP400错误：原因、排查及解决方法详解

<<上一篇

TailwindCSS官方文档解读：核心概念及应用

下一篇>>