GitHub OpenSearch 实战：配置、索引与查询

2025-3-10

GitHub OpenSearch 实战：配置、索引与查询

OpenSearch 是一个开源的、分布式的搜索和分析引擎，基于 Apache Lucene 构建。它提供了强大的全文搜索、结构化搜索、数据分析和可视化功能。GitHub 提供了 OpenSearch 的托管服务，让我们可以轻松地构建和管理自己的搜索解决方案，无需担心基础设施的运维。本文将深入探讨如何在 GitHub 上使用 OpenSearch，包括配置、索引数据和执行各种查询。

1. OpenSearch 基础概念

在深入实战之前，我们先来了解一些 OpenSearch 的核心概念：

集群 (Cluster): OpenSearch 集群由一个或多个节点组成，共同存储数据并提供搜索和分析服务。
节点 (Node): 节点是集群中的单个服务器实例。每个节点可以扮演不同的角色，例如数据节点、主节点、协调节点等。
索引 (Index): 索引是文档的集合，类似于关系型数据库中的表。每个索引都有一个映射（Mapping），定义了文档中字段的数据类型和属性。
文档 (Document): 文档是 OpenSearch 中存储的基本数据单元，采用 JSON 格式。每个文档都属于一个索引。
字段 (Field): 字段是文档中的键值对，类似于关系型数据库中的列。每个字段都有一个数据类型，例如文本、数字、日期等。
映射 (Mapping): 映射定义了索引中字段的数据类型、分析器和其他属性。它决定了 OpenSearch 如何索引和搜索数据。
分片 (Shard): 为了提高可扩展性和性能，OpenSearch 将索引划分为多个分片。每个分片都是一个独立的 Lucene 索引。
副本 (Replica): 副本是分片的复制品，用于提高数据的可用性和容错能力。
分析器 (Analyzer): 分析器用于将文本字段分解为词条（Term），以便进行索引和搜索。OpenSearch 提供了多种内置分析器，也支持自定义分析器。
查询 DSL (Query DSL): OpenSearch 使用基于 JSON 的查询 DSL 来构建各种复杂的查询。

2. 在 GitHub 上创建 OpenSearch 集群

要在 GitHub 上使用 OpenSearch，首先需要创建一个 OpenSearch 集群。请按照以下步骤操作：

登录 GitHub: 使用您的 GitHub 帐户登录。
导航到 OpenSearch 页面: 在 GitHub 搜索栏中搜索 "OpenSearch"，找到并点击 "OpenSearch" 服务。
创建集群: 点击 "Create cluster" 按钮。
配置集群:
- Cluster name: 为您的集群指定一个唯一的名称。
- Region: 选择一个地理区域来部署您的集群。
- Instance type: 选择一个实例类型，根据您的需求选择合适的计算和内存资源。
- Number of nodes: 选择节点数量。建议至少使用两个节点以实现高可用性。
- Storage: 配置存储空间大小。
- Network: 配置网络设置，可以选择公共访问或私有网络。
- Security: 配置安全设置，包括用户名和密码。
创建集群: 确认配置信息，然后点击 "Create cluster" 按钮。

创建集群可能需要几分钟时间。创建完成后，您将获得集群的 endpoint（访问地址）和凭据。

3. 配置 OpenSearch 客户端

要与 OpenSearch 集群进行交互，我们需要使用一个 OpenSearch 客户端。OpenSearch 提供了多种语言的客户端库，例如 Python、Java、JavaScript 等。本文以 Python 客户端为例进行演示。

首先，安装 opensearch-py 库：

bash pip install opensearch-py

然后，使用以下代码连接到您的 OpenSearch 集群：

```python
from opensearchpy import OpenSearch

替换为您的集群 endpoint 和凭据

host = 'your-opensearch-endpoint'
port = 443
auth = ('your-username', 'your-password')

创建 OpenSearch 客户端

client = OpenSearch(
hosts=[{'host': host, 'port': port}],
http_auth=auth,
use_ssl=True,
verify_certs=True,
ssl_assert_hostname=False,
ssl_show_warn=False
)

检查连接是否成功

print(client.info())
```

如果连接成功，client.info() 将返回集群的信息。

4. 创建索引和映射

在 OpenSearch 中，数据存储在索引中。在索引数据之前，我们需要创建一个索引并定义其映射。

4.1 创建索引

使用 client.indices.create() 方法创建索引：

```python
index_name = 'my-index'

创建索引

response = client.indices.create(
index=index_name,
body={
'settings': {
'index': {
'number_of_shards': 1,
'number_of_replicas': 1
}
}
},
ignore=400 # 如果索引已存在，忽略错误
)

print(response)
```

在上面的代码中，我们创建了一个名为 my-index 的索引，并设置了分片和副本的数量。ignore=400 参数表示如果索引已存在，则忽略错误。

4.2 定义映射

映射定义了索引中字段的数据类型和属性。使用 client.indices.put_mapping() 方法定义映射：

```python
mapping = {
'properties': {
'title': {
'type': 'text'
},
'content': {
'type': 'text'
},
'timestamp': {
'type': 'date'
}
}
}

设置映射

response = client.indices.put_mapping(
index=index_name,
body=mapping
)

print(response)
```

在上面的代码中，我们为 my-index 索引定义了三个字段：title、content 和 timestamp。title 和 content 字段的类型为 text，timestamp 字段的类型为 date。

5. 索引文档

创建索引和映射后，我们可以开始索引文档。使用 client.index() 方法索引单个文档：

```python
document = {
'title': 'OpenSearch 实战',
'content': '这是一篇关于 OpenSearch 的文章。',
'timestamp': '2023-10-27T10:00:00'
}

索引文档

response = client.index(
index=index_name,
body=document,
id='1' # 指定文档 ID
)

print(response)
```

在上面的代码中，我们索引了一个包含 title、content 和 timestamp 字段的文档。id='1' 参数指定了文档的 ID。

如果要批量索引多个文档，可以使用 client.bulk() 方法：

```python
documents = [
{
'_index': index_name,
'_id': '2',
'_source': {
'title': 'OpenSearch 查询',
'content': '学习如何使用 OpenSearch 查询数据。',
'timestamp': '2023-10-27T11:00:00'
}
},
{
'_index': index_name,
'_id': '3',
'_source': {
'title': 'OpenSearch 分析',
'content': '使用 OpenSearch 进行数据分析。',
'timestamp': '2023-10-27T12:00:00'
}
}
]

批量索引文档

from opensearchpy import helpers
helpers.bulk(client, documents)
`` 在上面的代码中,使用了helpers.bulk()`方法来提高效率

6. 执行查询

OpenSearch 提供了丰富的查询 DSL，可以构建各种复杂的查询。

6.1 简单查询

Match 查询: 用于执行全文搜索。

```python
query = {
'query': {
'match': {
'content': 'OpenSearch'
}
}
}

执行查询

response = client.search(
index=index_name,
body=query
)

print(response['hits']['hits'])
```

上面的代码将搜索 content 字段中包含 "OpenSearch" 的文档。

Term 查询: 用于精确匹配。

```python
query = {
'query': {
'term': {
'title.keyword': 'OpenSearch 实战' # 使用 .keyword 进行精确匹配
}
}
}

执行查询

response = client.search(
index=index_name,
body=query
)

print(response['hits']['hits'])
```

上面的代码将搜索 title 字段精确匹配 "OpenSearch 实战" 的文档。注意，为了进行精确匹配，我们需要使用 title.keyword 字段。这是因为 title 字段被分析为文本，而 title.keyword 字段保留了原始值。

6.2 组合查询

Bool 查询: 用于组合多个查询条件。

```python
query = {
'query': {
'bool': {
'must': [
{'match': {'content': 'OpenSearch'}},
{'range': {'timestamp': {'gte': '2023-10-27T10:00:00'}}}
],
'must_not': [
{'term': {'title.keyword': 'OpenSearch 分析'}}
]
}
}
}

执行查询

response = client.search(
index=index_name,
body=query
)

print(response['hits']['hits'])
```

上面的代码将搜索 content 字段中包含 "OpenSearch" 且 timestamp 大于等于 "2023-10-27T10:00:00"，但 title 字段不等于 "OpenSearch 分析" 的文档。

6.3 聚合查询

OpenSearch 提供了强大的聚合功能，可以对数据进行统计和分析。

Terms 聚合: 用于按字段值分组并计算每个分组的文档数。

```python
query = {
'size': 0, # 不返回文档，只返回聚合结果
'aggs': {
'titles': {
'terms': {
'field': 'title.keyword'
}
}
}
}

执行查询

response = client.search(
index=index_name,
body=query
)

print(response['aggregations']['titles']['buckets'])
```

上面的代码将按 title.keyword 字段进行分组，并计算每个分组的文档数。

Date Histogram 聚合: 用于按时间间隔分组并计算每个分组的文档数。

```python
query = {
'size': 0,
'aggs': {
'articles_over_time': {
'date_histogram': {
'field': 'timestamp',
'calendar_interval': 'hour'
}
}
}
}

执行查询

response = client.search(
index=index_name,
body=query
)
print(response['aggregations']['articles_over_time']['buckets'])

```

上面的代码将按小时对timestamp字段进行分组.

7. 高级配置和优化

7.1 分析器

OpenSearch 提供了多种内置分析器，可以根据不同的需求选择合适的分析器。您也可以自定义分析器。

例如，如果您需要支持中文搜索，可以使用 ik_max_word 或 ik_smart 分析器：

python mapping = { 'properties': { 'content': { 'type': 'text', 'analyzer': 'ik_max_word' # 使用 ik_max_word 分析器 } } }
你需要先安装analysis-ik插件

7.2 索引设置

您可以通过调整索引设置来优化性能和资源使用。例如，您可以调整分片和副本的数量、刷新间隔、合并策略等。

7.3 查询优化

使用过滤器 (Filter): 过滤器不会计算相关性得分，因此比查询更快。对于不需要计算相关性得分的条件，应尽量使用过滤器。
避免使用通配符开头的查询: 通配符开头的查询 (例如 *search) 性能较差，应尽量避免。
使用分页 (Pagination): 对于大量数据的查询，应使用分页来避免一次性返回所有结果。
优化映射: 合理设计映射，选择合适的数据类型和分析器，可以提高索引和搜索的效率。
使用缓存: OpenSearch 会自动缓存一些查询结果, 合理利用缓存能提高查询速度.

8. 总结

本文详细介绍了如何在 GitHub 上使用 OpenSearch，包括创建集群、配置客户端、创建索引和映射、索引文档以及执行各种查询。通过学习本文，您应该能够掌握 OpenSearch 的基本用法，并能够构建自己的搜索解决方案。

OpenSearch 是一个功能强大且灵活的搜索和分析引擎，除了本文介绍的基本功能外，它还提供了许多高级功能，例如地理空间搜索、机器学习集成、安全管理等。您可以进一步探索 OpenSearch 的官方文档和社区资源，了解更多高级用法和最佳实践。

作者：admin

链接：https://hostlocvps.com/2025/03/10/github-opensearch-%e5%ae%9e%e6%88%98%ef%bc%9a%e9%85%8d%e7%bd%ae%e3%80%81%e7%b4%a2%e5%bc%95%e4%b8%8e%e6%9f%a5%e8%af%a2/

文章版权归作者所有，未经允许请勿转载。

THE END

PostgreSQL 交互式终端 psql：连接、查询及管理

<<上一篇

Clash Verge：详细介绍、下载及使用教程

下一篇>>