PostgreSQL + pgvector：实现高效向量嵌入与检索

2025-3-13

PostgreSQL + pgvector：实现高效向量嵌入与检索

在人工智能和机器学习领域，向量嵌入（Vector Embeddings）已成为表示和处理复杂数据的核心技术。它们将文本、图像、音频等非结构化数据转换为高维向量空间中的点，使得语义相似的数据点在向量空间中也彼此靠近。这种表示方式极大地促进了相似性搜索、推荐系统、自然语言处理等应用的发展。

然而，高效地存储和检索这些高维向量成为了一个挑战。传统的数据库系统在处理这种特殊类型的数据时，往往显得力不从心。幸运的是，PostgreSQL 及其扩展 pgvector 的结合，为我们提供了一个强大且灵活的解决方案。

1. 向量嵌入：理解核心概念

向量嵌入是一种将离散变量（如单词、句子、图像或用户 ID）映射到连续向量空间的技术。这种映射通常由深度学习模型（如 Word2Vec、BERT、ResNet 等）完成，这些模型经过大量数据的训练，能够捕捉数据之间的潜在语义关系。

关键特性：

语义相似性： 相似的输入数据（如“国王”和“女王”）在向量空间中会产生彼此接近的向量。
降维： 向量嵌入通常将高维、稀疏的原始数据（如 one-hot 编码）转换为较低维、稠密的向量，从而减少计算和存储开销。
可组合性： 向量可以通过算术运算进行组合，例如，“国王” - “男人” + “女人” 的结果向量会接近于“女王”。

应用场景：

语义搜索： 查找与给定查询语义最相似的文档或项目。
推荐系统： 根据用户的历史行为或偏好，推荐相关的产品或内容。
异常检测： 识别与正常模式显著偏离的数据点。
聚类： 将相似的数据点分组到一起。
分类： 根据向量表示对数据进行分类。

2. PostgreSQL：强大的关系型数据库

PostgreSQL 是一款功能强大、开源、且高度可扩展的关系型数据库管理系统（RDBMS）。它以其稳定性、数据完整性和对 SQL 标准的严格遵守而闻名。

PostgreSQL 的优势：

成熟稳定： 经过数十年的发展和广泛应用，PostgreSQL 已经成为最可靠的数据库系统之一。
数据完整性： 支持 ACID 属性（原子性、一致性、隔离性、持久性），确保数据的可靠性。
扩展性： 支持多种扩展机制，可以处理大规模数据集和高并发访问。
灵活性： 支持多种数据类型、索引和查询方式，可以适应各种应用场景。
开源免费： 降低了使用成本，并拥有活跃的社区支持。
强大的扩展生态： 通过各种extension, 极大地扩展了postgres的功能。

3. pgvector：PostgreSQL 的向量相似性搜索扩展

pgvector 是一个专门为 PostgreSQL 设计的开源扩展，它为 PostgreSQL 增加了对向量数据类型和相似性搜索的支持。这使得 PostgreSQL 能够高效地存储和检索向量嵌入，从而成为一个强大的向量数据库。

pgvector 的主要特性：

向量数据类型： 引入了新的 vector 数据类型，用于存储向量。
相似性运算符： 提供了三种相似性运算符：
- <->：L2 距离（欧几里得距离）
- <#>：负内积
- <=>：余弦距离
索引支持： 支持两种索引类型，用于加速相似性搜索：
- IVFFlat (Inverted File with Flat index)： 基于聚类的索引，适用于大规模数据集。
- HNSW (Hierarchical Navigable Small World)： 基于图的索引，提供更高的搜索精度和召回率。
与 PostgreSQL 集成： 无缝集成到 PostgreSQL 中，可以与其他 PostgreSQL 功能（如 JSON 支持、全文搜索等）结合使用。

pgvector 的优势：

简单易用： 安装和使用非常简单，只需几条 SQL 命令即可完成。
高效性能： 通过索引和优化的查询算法，实现了高效的向量相似性搜索。
灵活扩展： 可以与 PostgreSQL 的其他功能结合使用，构建复杂的应用。
开源免费： 与 PostgreSQL 一样，pgvector 也是开源免费的。

4. PostgreSQL + pgvector：实现高效向量嵌入与检索的步骤

现在，让我们详细介绍如何使用 PostgreSQL 和 pgvector 来实现向量嵌入和检索：

4.1 安装和配置

安装 PostgreSQL： 根据您的操作系统，从 PostgreSQL 官方网站下载并安装 PostgreSQL。确保安装的版本支持 pgvector（通常需要 PostgreSQL 11 或更高版本）。
安装 pgvector：
- 使用包管理器（推荐）：
```bash
# 对于 Debian/Ubuntu
sudo apt-get install postgresql-15-pgvector # 将 15 替换为您的 PostgreSQL 版本

对于 CentOS/RHEL

sudo yum install pgvector_15 # 将 15 替换为您的 PostgreSQL 版本
```
- 从源代码编译：
  bash git clone https://github.com/pgvector/pgvector.git cd pgvector make sudo make install
- 使用 Docker：
  bash docker pull ankane/pgvector
启用 pgvector 扩展：
sql CREATE EXTENSION vector;

4.2 创建表和插入数据

创建包含向量列的表：
sql CREATE TABLE items ( id SERIAL PRIMARY KEY, name TEXT, embedding vector(1536) -- 假设向量维度为 1536 );
插入数据（示例）：
sql INSERT INTO items (name, embedding) VALUES ('King', '[0.1, 0.2, ..., 0.9]'), -- 假设这是一个 1536 维的向量 ('Queen', '[0.2, 0.3, ..., 0.8]'), ('Man', '[0.3, 0.4, ..., 0.7]'), ('Woman', '[0.4, 0.5, ..., 0.6]');
在实际应用中, embedding的值通常由其他的服务或者程序产生。

4.3 构建索引

为了加速相似性搜索，我们需要在向量列上创建索引。pgvector 支持两种索引类型：IVFFlat 和 HNSW。

IVFFlat 索引：
sql CREATE INDEX ON items USING ivfflat (embedding vector_l2_ops) WITH (lists = 100);
- vector_l2_ops：表示使用 L2 距离进行索引。您也可以使用 vector_ip_ops（内积）或 vector_cosine_ops（余弦距离）。
- lists：指定聚类的数量。通常，将其设置为数据集大小的平方根附近的值。
HNSW 索引：
sql CREATE INDEX ON items USING hnsw (embedding vector_l2_ops) WITH (m = 16, ef_construction = 64);
- m：每个节点的最大连接数。
- ef_construction：构建索引时的搜索范围。

选择索引类型的建议：

IVFFlat： 适用于大规模数据集，构建速度较快，但搜索精度可能略低于 HNSW。
HNSW： 提供更高的搜索精度和召回率，但构建索引的时间较长，且占用更多的存储空间。

通常来说，如果对召回率要求极高，选择HNSW, 否则选IVFFlat.

4.4 执行相似性搜索

现在，我们可以使用相似性运算符来执行查询：

查找与给定向量最相似的项：
sql SELECT id, name, embedding <-> '[0.15, 0.25, ..., 0.85]' AS distance FROM items ORDER BY distance LIMIT 5;
这将返回与给定向量（[0.15, 0.25, ..., 0.85]）最相似的 5 个项，并按距离升序排列。
设置 probes (仅适用于 IVFFlat 索引)：
```sql
SET ivfflat.probes = 10; -- 增加 probes 值以提高搜索精度

SELECT ...; -- 执行查询
```

4.5 性能优化

调整索引参数： 根据数据集大小和查询需求，调整 IVFFlat 的 lists 和 probes 参数，或 HNSW 的 m 和 ef_construction 参数。
批量插入： 使用 COPY 命令或批量插入语句，可以提高插入数据的效率。
并行查询： PostgreSQL 支持并行查询，可以通过配置 max_parallel_workers_per_gather 等参数来利用多核 CPU。
硬件优化： 使用 SSD 存储、增加内存等，可以提高数据库的整体性能。
使用连接池： 减少数据库连接的创建和销毁开销。

5. 实际应用案例

让我们通过几个具体的例子来展示 PostgreSQL + pgvector 的实际应用：

5.1 图像相似性搜索

图像特征提取： 使用预训练的卷积神经网络（如 ResNet、Inception 等）提取图像的特征向量。
数据存储： 将图像的特征向量存储到 PostgreSQL 的 vector 列中。
索引构建： 在向量列上创建 IVFFlat 或 HNSW 索引。
相似性搜索： 给定一张查询图像，提取其特征向量，然后在 PostgreSQL 中执行相似性搜索，找到与之最相似的图像。

5.2 文本语义搜索

文本嵌入： 使用预训练的语言模型（如 BERT、Sentence-BERT 等）将文本转换为向量。
数据存储： 将文本的向量表示存储到 PostgreSQL 的 vector 列中。
索引构建： 在向量列上创建 IVFFlat 或 HNSW 索引。
语义搜索： 给定一个查询语句，将其转换为向量，然后在 PostgreSQL 中执行相似性搜索，找到与之语义最相似的文本。

5.3 推荐系统

用户和物品嵌入： 使用协同过滤、矩阵分解等方法，为用户和物品生成向量表示。
数据存储： 将用户和物品的向量存储到 PostgreSQL 的 vector 列中。
索引构建： 在向量列上创建 IVFFlat 或 HNSW 索引。
推荐生成： 给定一个用户，找到与其向量表示最相似的物品，作为推荐结果。

6. 与其他向量数据库的比较

除了 PostgreSQL + pgvector，还有其他一些专门的向量数据库，如 Faiss、Annoy、Milvus、Weaviate、Qdrant 等。它们在性能、可扩展性、易用性等方面各有特点。

Faiss 和 Annoy： 是两个流行的向量相似性搜索库，通常用于内存中的向量检索。它们提供了高度优化的算法和数据结构，但在持久化、事务支持和数据管理方面不如数据库系统。
Milvus、Weaviate 和 Qdrant： 是专门为向量相似性搜索设计的数据库系统。它们通常提供更高级的功能，如分布式部署、自动索引优化等，但在成熟度、稳定性和与现有工具的集成方面可能不如 PostgreSQL。

选择 PostgreSQL + pgvector 的理由：

如果您已经在使用 PostgreSQL： pgvector 可以直接集成到现有的 PostgreSQL 环境中，无需引入新的数据库系统。
需要事务支持和数据完整性： PostgreSQL 提供了强大的 ACID 属性，确保数据的可靠性。
需要与其他 PostgreSQL 功能结合使用： pgvector 可以与 PostgreSQL 的其他功能（如 JSON 支持、全文搜索等）无缝集成。
需要一个成熟、稳定且有良好社区支持的解决方案： PostgreSQL 和 pgvector 都是开源项目，拥有活跃的社区和广泛的应用案例。

7. 总结与展望

PostgreSQL + pgvector 为向量嵌入和相似性搜索提供了一个强大、灵活且易于使用的解决方案。它将 PostgreSQL 成熟的数据库功能与 pgvector 的向量处理能力相结合，使得我们可以轻松地构建各种基于向量相似性的应用。

随着人工智能和机器学习领域的不断发展，向量嵌入的应用将越来越广泛。PostgreSQL + pgvector 的组合将继续发挥重要作用，为我们提供一个可靠、高效的向量数据管理和检索平台。

未来，我们可以期待 pgvector 在以下方面的进一步发展：

支持更多的索引类型： 引入更多的索引算法和数据结构，以适应不同的应用场景。
性能优化： 进一步优化查询算法和索引结构，提高搜索速度和吞吐量。
分布式支持： 支持分布式部署，以处理更大规模的向量数据集。
与其他工具的集成： 与更多的机器学习框架和工具集成，简化向量嵌入的生成和管理。

总之, PostgreSQL + pgvector 提供了一个坚实的基础, 用于构建需要高效处理和查询向量数据的各种应用程序, 并在向量数据库这个领域提供了一个有竞争力的选项.

作者：admin

链接：https://hostlocvps.com/2025/03/13/postgresql-pgvector%ef%bc%9a%e5%ae%9e%e7%8e%b0%e9%ab%98%e6%95%88%e5%90%91%e9%87%8f%e5%b5%8c%e5%85%a5%e4%b8%8e%e6%a3%80%e7%b4%a2/

文章版权归作者所有，未经允许请勿转载。

THE END

Python SimpleHTTPServer：本地文件共享与Web开发利器

<<上一篇

MongoDB Atlas：功能、定价与优势分析

下一篇>>