深入理解 Redis ZSet：原理、命令与应用场景

2025-3-31

深入理解 Redis ZSet：原理、命令与应用场景

Redis，作为一个高性能的内存键值数据库，提供了多种丰富的数据结构来满足不同的业务需求。其中，有序集合（Sorted Set，简称 ZSet）是一种非常强大且独特的数据结构。它既有集合（Set）的特性——成员唯一，不允许重复；又具备有序性——每个成员都关联一个分数（score），Redis 通过这个分数来为集合中的成员进行排序。这种结合了唯一性、关联分数和排序性的特性，使得 ZSet 在许多场景下成为不可或缺的利器。本文将深入探讨 ZSet 的内部原理、常用命令以及典型的应用场景，帮助读者全面掌握这一数据结构。

一、 ZSet 的内部原理：精妙的数据结构组合

理解 ZSet 的强大之处，首先要探究其底层的实现机制。为了同时满足快速查找成员（通过成员本身）和快速范围查找（通过分数或排名）的需求，Redis 对 ZSet 的实现采用了巧妙的设计。根据 ZSet 中存储的元素数量和大小，Redis 会选择不同的编码方式：ziplist（或新版本的listpack）和 skip list。

压缩列表（ziplist）/ 紧凑列表（listpack）：
- 当 ZSet 中元素的数量比较少，并且每个元素（成员和分数）的值也比较小的时候，Redis 会采用 ziplist 或 listpack 这种内存紧凑的结构来存储。
- ziplist 是一块连续的内存空间，它将所有元素（成员和分数对）紧密地排列在一起，以节省内存。每个节点存储前一个节点的长度和当前节点的类型、内容等信息。查找、插入、删除操作的平均时间复杂度可能是 O(N)，但在数据量小的情况下，其内存效率和访问局部性带来的优势非常明显。
- listpack 是 Redis 5.0 后引入用于替代 ziplist 的结构，解决了 ziplist 连锁更新的问题，同时保持了内存紧凑的特点。
- 这种编码方式下，成员和分数是成对连续存储的。虽然内存占用低，但当元素增多时，查找和修改的效率会下降。
- 可以通过配置参数 zset-max-ziplist-entries（成员数量阈值）和 zset-max-ziplist-value（单个成员或分数值的最大字节数阈值，新版本对应 listpack 相关参数）来控制何时从 ziplist/listpack 切换到 skip list。
跳跃表（skip list）与哈希表（dict）的组合：
- 当 ZSet 中的元素数量超过阈值，或者某个元素的值过大时，Redis 会将 ZSet 的底层实现转换为 skip list 和 dict 的组合。这是 ZSet 更为通用和核心的实现方式。
- 哈希表（dict）：用于存储成员（member）到分数（score）的映射。这使得通过成员名字查找其分数的操（如 ZSCORE 命令）作可以达到 O(1) 的时间复杂度。同时，它也保证了成员的唯一性。字典的键是 ZSet 的成员，值是成员的分数。
- 跳跃表（skip list）：这是一种支持快速查找、插入、删除的有序数据结构，其效率可与平衡树相媲美，但实现相对简单。跳跃表通过在有序链表的基础上增加多级“快速通道”（索引层）来实现 O(log N) 的平均查找复杂度。
  - 结构：跳跃表包含多个层级，最底层（Level 1）是一个包含所有元素的有序链表，元素按照分数从小到大排序（分数相同则按成员的字典序排序）。每个更高层级都是下一层级的一个稀疏索引，包含部分元素的指针。层级越高，跨越的元素越多，查找时可以跳过更多的节点。
  - 作用：跳跃表主要负责维护 ZSet 成员的分数排序。它使得按照分数范围查找成员（如 ZRANGEBYSCORE）或者按照排名查找成员（如 ZRANGE）的操作能够达到 O(log N) 的时间复杂度（定位到起始节点）+ O(M) （遍历 M 个结果）。同时，插入和删除操作的平均复杂度也是 O(log N)。
  - 节点：跳跃表中的每个节点不仅存储成员（member）和分数（score），还包含指向同一层级下一个节点的指针（forward 指针）和指向下一层级相同位置节点的指针（span，表示前进指针跨越的节点数，用于快速计算排名）。节点还包含一个后退指针（backward），用于支持倒序遍历（如 ZREVRANGE）。
- 协同工作：dict 和 skip list 通过指针共享成员和分数的实际存储（通常指向同一份 SDS 字符串对象和 double 类型的分数），避免了数据冗余，同时保持了两者功能上的独立性。当你通过成员查找分数时，使用 dict；当你需要进行排序或范围查询时，使用 skip list。更新或删除元素时，需要同时维护这两个数据结构的一致性。

这种双重结构的设计是 ZSet 高效的关键：哈希表保证了按成员查找的高效性，跳跃表则保证了按分数排序和范围查询的高效性。虽然相比 ziplist/listpack 会占用更多的内存（因为指针和冗余结构），但它提供了在大数据量下优异的性能表现。

二、 ZSet 核心命令详解

Redis 提供了丰富的 ZSet 操作命令，覆盖了增删改查、范围查询、聚合计算等多种功能。下面列举并解释一些核心的命令：

1. 添加与更新

ZADD key [NX|XX] [CH] [INCR] score member [score member ...]
- 向有序集合 key 中添加一个或多个成员，或者更新已存在成员的分数。
- score: 成员的分数，必须是浮点数。
- member: 成员的值，必须唯一。
- NX: 只添加新成员，不更新已存在的成员。
- XX: 只更新已存在的成员，不添加新成员。
- CH: 返回本次操作实际修改的成员数量（新增+更新）。默认只返回新增成员数量。
- INCR: 将命令变成 ZINCRBY 的效果，对指定成员的分数进行自增操作。此时只能指定一对 score member，score 代表要增加的值。
- 返回值：默认情况下，返回被成功添加的新成员数量（不包括更新的成员）。使用 CH 选项时，返回新增和被更新的成员总数。使用 INCR 选项时，返回成员的新分数。

2. 获取分数与排名

ZSCORE key member
- 返回有序集合 key 中，成员 member 的分数。如果成员不存在，返回 nil。时间复杂度 O(1)。
ZRANK key member
- 返回有序集合 key 中，成员 member 的排名（按分数从小到大排序，排名从 0 开始）。时间复杂度 O(log N)。
ZREVRANK key member
- 返回有序集合 key 中，成员 member 的排名（按分数从大到小排序，排名从 0 开始）。时间复杂度 O(log N)。

3. 按排名范围获取成员

ZRANGE key start stop [WITHSCORES]
- 返回有序集合 key 中，指定排名区间内的成员。排名按分数从小到大（升序）。start 和 stop 都是基于 0 的索引，支持负数索引（-1 表示最后一个成员，-2 表示倒数第二个，以此类推）。区间是闭区间 [start, stop]。
- WITHSCORES: 可选参数，同时返回成员的分数。结果格式为 [member1, score1, member2, score2, ...]。
- 时间复杂度：O(log N + M)，N 是集合大小，M 是返回成员数量。
ZREVRANGE key start stop [WITHSCORES]
- 同 ZRANGE，但按分数从大到小（降序）返回指定排名区间的成员。
- 时间复杂度：O(log N + M)。

4. 按分数范围获取成员

ZRANGEBYSCORE key min max [WITHSCORES] [LIMIT offset count]
- 返回有序集合 key 中，所有分数介于 min 和 max 之间的成员（按分数从小到大排序）。min 和 max 可以是 -inf（负无穷）和 +inf（正无穷）。默认情况下，区间是闭区间 [min, max]。可以通过在分数前加上 ( 符号来表示开区间（例如 (100 表示大于 100）。
- WITHSCORES: 可选参数，同时返回成员的分数。
- LIMIT offset count: 可选参数，用于分页。从符合条件的成员中，跳过 offset 个，取 count 个。
- 时间复杂度：O(log N + M)。
ZREVRANGEBYSCORE key max min [WITHSCORES] [LIMIT offset count]
- 同 ZRANGEBYSCORE，但按分数从大到小（降序）返回。注意 max 和 min 的顺序。
- 时间复杂度：O(log N + M)。

5. 按字典序范围获取成员

ZRANGEBYLEX key min max [LIMIT offset count]
- 当 ZSet 中所有成员的分数都相同时，此命令用于按成员的字典序（lexicographical order）返回指定范围内的成员。
- min 和 max 必须以 [ 或 ( 开头，分别表示闭区间或开区间。'-' 表示负无穷（字典序最小），'+' 表示正无穷（字典序最大）。例如 [apple (banana 表示大于等于 apple 且小于 banana 的所有成员。
- 时间复杂度：O(log N + M)。
ZREVRANGEBYLEX key max min [LIMIT offset count]
- 同 ZRANGEBYLEX，但按字典序逆序返回。
ZLEXCOUNT key min max
- 返回有序集合 key 中，成员字典序介于 min 和 max 之间的成员数量。

6. 获取集合信息

ZCARD key
- 返回有序集合 key 的基数（成员数量）。时间复杂度 O(1)（因为跳跃表头节点存储了长度）。
ZCOUNT key min max
- 返回有序集合 key 中，分数介于 min 和 max 之间（包括 min 和 max）的成员数量。时间复杂度 O(log N)。

7. 增加分数

ZINCRBY key increment member
- 为有序集合 key 中成员 member 的分数加上 increment。如果成员不存在，则添加该成员，其初始分数为 increment。increment 可以是负数。
- 返回值：成员的新分数。
- 时间复杂度：O(log N)。

8. 删除成员

ZREM key member [member ...]
- 移除有序集合 key 中的一个或多个成员。忽略不存在的成员。
- 返回值：被成功移除的成员数量。
- 时间复杂度：O(M * log N)，M 是要删除的成员数量。
ZREMRANGEBYRANK key start stop
- 移除有序集合 key 中，指定排名区间内的所有成员（按分数升序排名）。
- 返回值：被移除成员的数量。
- 时间复杂度：O(log N + M)，M 是被移除的成员数量。
ZREMRANGEBYSCORE key min max
- 移除有序集合 key 中，所有分数介于 min 和 max 之间（包括 min 和 max）的成员。
- 返回值：被移除成员的数量。
- 时间复杂度：O(log N + M)。
ZREMRANGEBYLEX key min max
- 移除有序集合 key 中，成员字典序介于 min 和 max 之间的所有成员（要求分数相同）。
- 返回值：被移除成员的数量。
- 时间复杂度：O(log N + M)。

9. 集合运算

ZUNIONSTORE destination numkeys key [key ...] [WEIGHTS weight [weight ...]] [AGGREGATE SUM|MIN|MAX]
- 计算 numkeys 个有序集合 (key [key ...]) 的并集，并将结果存储在 destination 中。如果 destination 已存在，则覆盖。
- WEIGHTS: 可选参数，为每个输入集合指定一个权重因子（浮点数），成员的分数在合并前会乘以对应的权重。默认权重为 1。
- AGGREGATE: 可选参数，指定如何处理并集中相同成员的分数。SUM（默认）：相加；MIN：取最小值；MAX：取最大值。
- 返回值：结果集中的成员数量。
- 时间复杂度：O(N log N)，其中 N 是所有输入集合成员总数的最大值。复杂度较高，需谨慎使用。
ZINTERSTORE destination numkeys key [key ...] [WEIGHTS weight [weight ...]] [AGGREGATE SUM|MIN|MAX]
- 计算 numkeys 个有序集合的交集，并将结果存储在 destination 中。其他参数与 ZUNIONSTORE 类似。
- 返回值：结果集中的成员数量。
- 时间复杂度：O(N log N)。

10. 弹出成员 (Redis 5.0+)

ZPOPMAX key [count]
- 移除并返回有序集合 key 中分数最高的 count 个成员。默认 count 为 1。返回结果是 [member1, score1, member2, score2, ...]。
- 时间复杂度：O(log N * M)，M 是弹出的数量。
ZPOPMIN key [count]
- 移除并返回有序集合 key 中分数最低的 count 个成员。
- 时间复杂度：O(log N * M)。
BZPOPMAX key [key ...] timeout
- ZPOPMAX 的阻塞版本。如果所有给定 key 都不存在或为空，连接将被阻塞直到 timeout 秒。timeout 为 0 表示无限期阻塞。返回第一个非空集合中弹出的成员及其分数和来源 key。
BZPOPMIN key [key ...] timeout
- ZPOPMIN 的阻塞版本。

11. 迭代

ZSCAN key cursor [MATCH pattern] [COUNT count]
- 增量迭代有序集合 key 中的成员及其分数。用于处理大型 ZSet 而不阻塞服务器。返回一个包含下一个游标 cursor 和一批成员-分数对的数组。

三、 ZSet 的典型应用场景

ZSet 凭借其独特的有序性和高效的范围查询能力，在众多场景下都有广泛的应用：

排行榜（Leaderboards）
- 这是 ZSet 最经典的应用场景。例如游戏积分榜、文章点赞榜、用户活跃度排名等。
- 实现：将用户 ID 或物品 ID 作为 member，将积分、点赞数或活跃度指标作为 score。
- 操作：
  - 使用 ZADD 或 ZINCRBY 更新分数。
  - 使用 ZREVRANGE 获取 Top N 排行榜（分数从高到低）。
  - 使用 ZRANGE 获取末尾排名。
  - 使用 ZRANK 或 ZREVRANK 查询特定用户的排名。
  - 使用 ZSCORE 查询特定用户的分数。
延迟队列 / 优先队列（Delayed Queue / Priority Queue）
- 利用 ZSet 的分数来表示任务的执行时间戳或优先级。
- 实现：将任务的唯一标识（如任务 ID 或任务内容）作为 member，将任务应被执行的 Unix 时间戳或优先级（数值越小优先级越高）作为 score。
- 操作：
  - 生产者使用 ZADD 将任务加入队列，score 设为执行时间戳。
  - 消费者（轮询）：
    - 使用 ZRANGEBYSCORE key 0 current_timestamp LIMIT 0 1 (或 ZRANGE key 0 0) 查询分数最小（优先级最高或最早到期）的任务。
    - 如果找到任务，尝试使用 ZREM 原子性地移除该任务。如果移除成功，则执行任务；如果移除失败（可能被其他消费者抢先），则重新尝试获取下一个任务。
  - 消费者（阻塞，使用 BZPOPMIN）：
    - 直接调用 BZPOPMIN queue_key timeout，Redis 会阻塞等待直到有分数最低（优先级最高）的任务出现，并原子性地返回并移除该任务。这是更高效的方式。
  - 可以使用 ZRANGEBYSCORE key -inf current_timestamp 获取所有到期的任务。
带权重的自动补全 / 搜索建议（Weighted Autocomplete / Suggestions）
- 根据用户输入前缀，提供带权重的建议列表。
- 实现：
  - （方法一：分数作为权重）将完整的建议词条作为 member，将该词条的权重（如搜索频率、重要性）作为 score。查询时，需要结合前缀匹配逻辑（可能在客户端或服务端进行过滤）。
  - （方法二：利用字典序）如果权重都一样，可以将 score 都设为 0。将前缀和词条组合，利用 ZRANGEBYLEX 来查找以特定前缀开头的成员。例如，要查找 "hel" 开头的词，可以用 ZRANGEBYLEX key "[hel" "[hel\xff" 来获取所有以 "hel" 开头的成员（需要确保成员字符串设计合理）。
  - 更复杂的实现可能需要结合其他数据结构或专门的搜索库。
范围查询（Range Queries）
- 查找某个分数区间内的所有成员。例如：
  - 查找价格在 100 到 500 元之间的商品。
  - 查找在某个时间段内登录过的用户（score 为登录时间戳）。
  - 查找年龄在 18 到 25 岁的用户（score 为出生日期或年龄）。
- 操作：主要使用 ZRANGEBYSCORE 和 ZREVRANGEBYSCORE，结合 LIMIT 进行分页。ZCOUNT 用于统计数量。
滑动窗口计数 / 限流（Sliding Window Counter / Rate Limiting）
- 实现一个滑动时间窗口内的请求计数，用于接口限流等。
- 实现：将每次请求的唯一标识（如 UUID 或精确时间戳+随机数）作为 member，将请求发生的 Unix 时间戳（毫秒级）作为 score。
- 操作：
  - 每次请求到来时：
    - 获取当前时间戳 current_time。
    - 计算窗口的起始时间 window_start_time = current_time - window_size。
    - 使用 ZREMRANGEBYSCORE key -inf window_start_time 移除窗口之外的旧请求记录。
    - 使用 ZCARD key 获取当前窗口内的请求数量。
    - 如果数量未超过阈值，则使用 ZADD key current_time unique_request_id 记录本次请求，并允许访问。
    - 如果数量已达到阈值，则拒绝访问。
- 注意：此方法需要保证 member 的唯一性，并且在高并发下可能存在原子性问题（移除和添加之间），更健壮的实现可能需要 Lua 脚本。
用户在线状态 / 最近活跃用户
- 跟踪用户最近一次活跃的时间。
- 实现：将用户 ID 作为 member，将最后活跃的 Unix 时间戳作为 score。
- 操作：
  - 用户活跃时，使用 ZADD online_users current_timestamp user_id 更新其最后活跃时间。
  - 获取最近 N 分钟内活跃的用户：ZRANGEBYSCORE online_users (current_timestamp - N*60) +inf。
  - 获取最活跃（最近登录）的 Top K 用户：ZREVRANGE online_users 0 K-1 WITHSCORES。

四、使用 ZSet 的注意事项与最佳实践

内存消耗：ZSet 的内存占用相对较高，尤其是在使用 skip list + dict 编码时，因为它需要存储跳跃表指针、哈希表等额外结构。对于包含大量成员的 ZSet，要关注 Redis 的内存使用情况。适当调整 zset-max-ziplist-entries 和 zset-max-ziplist-value（或新版的 listpack 相关配置）可以在一定程度上优化小 ZSet 的内存占用。
分数精度：score 是双精度浮点数（double），存在精度限制。对于需要极高精度或整数比较的场景，可能需要转换存储方式（例如将时间戳乘以 1000 存储毫秒，或将浮点数乘以一个大数转为整数存储）。
命令复杂度：了解常用命令的时间复杂度非常重要。虽然大部分单元素操作（ZSCORE, ZADD, ZINCRBY, ZREM 单个成员）和范围查找的定位操作是 O(1) 或 O(log N)，但涉及范围遍历（如 ZRANGE, ZRANGEBYSCORE）的复杂度与返回结果数量 M 相关（O(log N + M)）。集合运算（ZUNIONSTORE, ZINTERSTORE）和批量删除（ZREMRANGEBY*）的复杂度可能较高，在大数据集上应谨慎使用或评估性能影响。
大 ZSet 操作：避免对包含数百万甚至更多成员的 ZSet 执行复杂度为 O(N) 或 O(M) 且 M 可能很大的操作（如无 LIMIT 的 ZRANGE 0 -1）。迭代大 ZSet 应使用 ZSCAN。
原子性：Redis 的单个命令是原子性的。但如果业务逻辑需要组合多个命令（如限流场景中的先清理再计数再添加），在高并发下可能需要使用 Lua 脚本来保证整体操作的原子性。
数据模型设计：精心设计 member 和 score 的含义，使其能直接服务于查询需求。例如，在需要按时间排序时，直接将时间戳作为 score 通常比将时间戳编码到 member 中更高效。

五、总结

Redis 的有序集合（ZSet）通过巧妙地结合哈希表和跳跃表（或 ziplist/listpack），提供了一种既能快速访问单个成员，又能高效进行排序和范围查询的数据结构。其丰富的命令集使得开发者能够轻松实现排行榜、延迟队列、带权重的自动补全、范围查找、滑动窗口计数等多种复杂功能。深入理解 ZSet 的内部原理、熟练掌握其核心命令，并结合实际场景灵活运用，将极大地提升应用开发的效率和性能。尽管其内存占用相对较高，但在性能和功能上的优势使其成为 Redis 工具箱中一颗璀璨的明珠。掌握 ZSet，无疑是 Redis 应用开发中的一项关键技能。

作者：admin

链接：https://hostlocvps.com/2025/03/31/%e6%b7%b1%e5%85%a5%e7%90%86%e8%a7%a3-redis-zset%ef%bc%9a%e5%8e%9f%e7%90%86%e3%80%81%e5%91%bd%e4%bb%a4%e4%b8%8e%e5%ba%94%e7%94%a8%e5%9c%ba%e6%99%af/

文章版权归作者所有，未经允许请勿转载。

THE END

iOS/macOS 开发：Swift Package Manager (SPM) 入门

<<上一篇

免费开源图像软件ImageJ全面介绍

下一篇>>