深入了解PostgreSQL：架构、原理与核心概念

2025-3-15

深入了解PostgreSQL：架构、原理与核心概念

PostgreSQL，通常简称为Postgres，是一个功能强大、开源的对象-关系型数据库管理系统（ORDBMS）。它以其可靠性、数据完整性和对SQL标准的广泛遵循而闻名。PostgreSQL被广泛用于各种应用场景，从小型单服务器部署到大型、分布式、高可用性环境。本文将深入探讨PostgreSQL的架构、工作原理和核心概念，帮助您更好地理解这个流行的数据库系统。

1. PostgreSQL 架构

PostgreSQL采用客户端-服务器（Client-Server）架构，其中客户端应用程序通过网络连接到PostgreSQL服务器进程来访问数据库。PostgreSQL服务器是多进程模型，而不是多线程模型（像MySQL那样）。这种设计选择在多核CPU环境下提供了更好的稳定性和隔离性，但也会带来一些进程间通信的开销。

1.1. 客户端-服务器模型

客户端（Client）： 客户端是发起数据库连接和查询请求的应用程序。PostgreSQL提供了多种客户端接口，包括：
- psql: 官方提供的命令行交互式终端。
- libpq: C语言客户端库，许多其他语言的PostgreSQL驱动程序（如Python的psycopg2、Java的JDBC驱动）都基于libpq构建。
- ODBC, JDBC: 标准的数据库连接API，允许各种应用程序连接到PostgreSQL。
服务器（Server）： PostgreSQL服务器负责管理数据库文件、处理客户端连接、执行查询并返回结果。服务器端的主要组件包括：

1.2. 服务器端进程结构

PostgreSQL服务器由多个协作进程组成，每个进程负责特定的任务：

Postmaster（监听进程）：
- Postmaster是PostgreSQL服务器的主进程，负责监听客户端连接请求。
- 当客户端尝试连接时，Postmaster会创建一个新的后端进程（Backend Process）来处理该连接。
- Postmaster还负责启动和管理一些后台进程，如日志记录器、检查点进程等。
Backend Process（后端进程）：
- 每个客户端连接都由一个独立的后端进程处理。
- 后端进程负责解析客户端发送的SQL查询、执行查询计划、访问数据库文件、并将结果返回给客户端。
- 后端进程之间相互隔离，一个后端进程的崩溃不会影响其他连接。
Background Writer（后台写入进程）：
- 负责将共享缓冲区（Shared Buffers）中的“脏页”（Dirty Pages，即已被修改但尚未写入磁盘的数据页）定期写入磁盘。
- 这有助于减少检查点进程的工作负载，并提高数据库的性能。
WAL Writer（预写日志写入进程）：
- 负责将WAL缓冲区中的WAL记录写入WAL文件。
- WAL（Write-Ahead Logging）是PostgreSQL实现事务持久性和崩溃恢复的关键机制。
Checkpointer（检查点进程）：
- 定期执行检查点操作，将共享缓冲区中的所有脏页强制写入磁盘，并更新控制文件。
- 检查点操作可以减少崩溃恢复所需的时间。
Logger（日志记录进程）：
- 负责将服务器的各种日志信息（如错误信息、慢查询日志等）写入日志文件。
Stats Collector（统计信息收集进程）：
- 收集数据库的各种统计信息，如表和索引的访问次数、块读取和写入次数等。
- 这些统计信息对于查询优化器生成高效的查询计划非常重要。
Autovacuum Launcher（自动清理启动进程）：
- 负责启动和管理Autovacuum工作进程。
- Autovacuum用于自动清理过期的数据行版本（MVCC机制产生的）并回收空间。
Autovacuum Worker(自动清理工作进程):
- 清理过期数据行，回收空间。
- 分析表，更新统计数据。
Archiver (归档进程,可选):
- 当开启WAL归档模式时，负责将已写满的WAL段文件复制到归档目录。
- WAL归档对于实现时间点恢复（Point-in-Time Recovery, PITR）至关重要。

1.3. 内存结构

PostgreSQL服务器使用多种内存区域来管理数据和执行查询：

Shared Buffers（共享缓冲区）：
- 这是PostgreSQL服务器最重要的一块内存区域，用于缓存从磁盘读取的数据页。
- 所有后端进程共享这块内存，以提高数据访问效率。
- 共享缓冲区的大小可以通过shared_buffers参数配置。
WAL Buffers（WAL缓冲区）：
- 用于缓存WAL记录的内存区域。
- WAL记录首先写入WAL缓冲区，然后由WAL写入进程批量写入WAL文件。
- WAL缓冲区的大小可以通过wal_buffers参数配置。
Work Memory（工作内存）：
- 每个后端进程都有自己的工作内存，用于执行排序、哈希连接等操作。
- 工作内存的大小可以通过work_mem参数配置。
- 如果查询需要的工作内存超过work_mem，PostgreSQL会将数据溢出到临时文件。
Maintenance Work Memory（维护工作内存）：
- 用于执行一些维护操作，如VACUUM、CREATE INDEX等。
- 维护工作内存的大小可以通过maintenance_work_mem参数配置。
Temp Buffers（临时缓冲区）：
- 用于存储临时表的数据页。
- 临时缓冲区的大小可以通过temp_buffers参数配置。

2. PostgreSQL 工作原理

2.1. 查询处理流程

当客户端向PostgreSQL服务器发送一个SQL查询时，服务器会经过以下步骤来处理该查询：

连接建立：
- 客户端通过网络连接到Postmaster进程。
- Postmaster为该连接创建一个新的后端进程。
解析（Parsing）：
- 后端进程接收客户端发送的SQL查询字符串。
- 解析器（Parser）将SQL字符串分解为语法树（Parse Tree）。
语义分析（Analysis）：
- 分析器（Analyzer）对语法树进行语义分析，检查表、列、数据类型等是否存在和有效。
- 分析器将语法树转换为查询树（Query Tree）。
重写（Rewriting）：
- 重写器（Rewriter）根据规则系统（Rule System）对查询树进行重写。
- 规则系统可以用于实现视图、规则等功能。
查询优化（Planning）：
- 查询优化器（Planner/Optimizer）根据查询树和统计信息，生成多个可能的查询计划（Plan）。
- 优化器会评估每个查询计划的成本，并选择成本最低的计划。
执行（Execution）：
- 执行器（Executor）按照选定的查询计划执行操作。
- 执行器从共享缓冲区或磁盘读取数据，执行过滤、连接、排序等操作。
结果返回：
- 执行器将查询结果返回给后端进程。
- 后端进程将结果格式化后发送给客户端。

2.2. 事务管理与并发控制

PostgreSQL使用多版本并发控制（MVCC）来实现事务的ACID特性，并提供高并发性能。

ACID特性：
- 原子性（Atomicity）： 事务中的所有操作要么全部成功，要么全部失败。
- 一致性（Consistency）： 事务将数据库从一个一致状态转换为另一个一致状态。
- 隔离性（Isolation）： 多个并发事务之间相互隔离，每个事务都感觉像是在独立运行。
- 持久性（Durability）： 一旦事务提交，其所做的修改将永久保存在数据库中，即使发生系统故障也不会丢失。
MVCC（多版本并发控制）：
- PostgreSQL为每一行数据维护多个版本。
- 当一个事务修改一行数据时，它不会直接覆盖旧版本，而是创建一个新的版本。
- 每个数据版本都有一个事务ID（XID），用于标识创建该版本的事务。
- 不同的事务可以根据其事务ID看到不同版本的数据，从而实现并发控制。
- 旧版本的数据最终会被Autovacuum进程清理。
事务隔离级别：
- PostgreSQL支持SQL标准定义的四种事务隔离级别：
  - Read Uncommitted（读未提交）： 最低的隔离级别，一个事务可以看到其他事务未提交的修改。可能出现脏读、不可重复读和幻读。
  - Read Committed（读已提交）： 一个事务只能看到其他事务已提交的修改。避免了脏读，但可能出现不可重复读和幻读。
  - Repeatable Read（可重复读）： 一个事务在整个过程中看到的数据保持一致，即使其他事务提交了新的修改。避免了脏读和不可重复读，但可能出现幻读。
  - Serializable（可串行化）： 最高的隔离级别，所有事务串行执行。避免了所有并发问题，但性能最低。
- PostgreSQL的默认隔离级别是Read Committed。

2.3. WAL（Write-Ahead Logging）

WAL是PostgreSQL实现事务持久性和崩溃恢复的关键机制。

原理：
- 在修改数据页之前，PostgreSQL会先将相应的修改操作记录到WAL日志中。
- WAL记录包含足够的信息，可以在系统崩溃后重放这些操作，将数据库恢复到一致状态。
- 只有当WAL记录被安全写入磁盘后，数据页的修改才会被认为是持久的。
优势：
- 提高性能： WAL允许PostgreSQL将数据页的修改延迟写入磁盘，减少磁盘I/O操作。
- 崩溃恢复： 在系统崩溃后，PostgreSQL可以通过重放WAL日志来恢复数据。
- 时间点恢复（PITR）： 通过WAL归档，可以将数据库恢复到任意时间点。

3. PostgreSQL 核心概念

3.1. 数据库对象

Database（数据库）： PostgreSQL服务器可以管理多个数据库。每个数据库都是一个独立的命名空间，包含表、视图、索引等对象。
Schema（模式）： 模式是数据库中的一个命名空间，用于组织表、视图、函数等对象。默认情况下，所有对象都创建在public模式中。
Table（表）： 表是存储数据的基本结构，由行和列组成。每一列都有一个数据类型。
View（视图）： 视图是一个虚拟表，其内容由查询定义。视图可以简化复杂的查询，并提供数据访问控制。
Index（索引）： 索引是用于加速数据检索的数据结构。PostgreSQL支持多种类型的索引，包括B-tree、Hash、GiST、SP-GiST、GIN和BRIN。
Function（函数）： 函数是一段可重用的代码，可以接受参数并返回值。PostgreSQL支持多种编程语言编写函数，包括SQL、PL/pgSQL、C、Python等。
Trigger（触发器）： 触发器是在特定事件（如INSERT、UPDATE、DELETE）发生时自动执行的函数。
Sequence:（序列） 用于生成唯一数字序列的对象。常用于自动生成主键值。
Extension（扩展）： 扩展是PostgreSQL的一个重要特性，允许用户添加新的数据类型、函数、操作符、索引类型等。

3.2. 数据类型

PostgreSQL支持丰富的数据类型，包括：

数值类型： smallint, integer, bigint, numeric, real, double precision等。
字符类型： char, varchar, text等。
日期/时间类型： date, time, timestamp, interval等。
布尔类型： boolean。
二进制类型： bytea。
网络地址类型： inet, cidr, macaddr等。
几何类型： point, line, box, polygon, circle等。
JSON类型： json, jsonb。
数组类型： 任意数据类型都可以定义为数组。
复合类型： 用户可以自定义复合类型，类似于C语言中的结构体。
范围类型: (Range Types) 表示一个值范围的类型，如int4range、daterange等.
域类型(Domain): 基于其他类型的自定义类型，可以添加约束。

3.3. 权限管理

PostgreSQL提供了一套完善的权限管理系统，用于控制用户对数据库对象的访问。

用户（User）： 用户是PostgreSQL中的一个实体，可以连接到数据库并执行操作。
角色（Role）： 角色是一组权限的集合。可以将角色授予用户，也可以将一个角色设置为另一个角色的成员。
权限（Privilege）： 权限是执行特定操作的权利，如SELECT、INSERT、UPDATE、DELETE、CREATE等。
对象所有者（Object Owner）： 创建对象的用

作者：admin

链接：https://hostlocvps.com/2025/03/15/%e6%b7%b1%e5%85%a5%e4%ba%86%e8%a7%a3postgresql%ef%bc%9a%e6%9e%b6%e6%9e%84%e3%80%81%e5%8e%9f%e7%90%86%e4%b8%8e%e6%a0%b8%e5%bf%83%e6%a6%82%e5%bf%b5/

文章版权归作者所有，未经允许请勿转载。

THE END

v2ray for Android 下载 | 官方推荐 & 用户评价

<<上一篇

腾讯文档：在线协作编辑Word、Excel、PPT【官方】

下一篇>>