不知名小公司一面：如何更好的遍历 Redis 中的海量数据？

站长

2024年03月27日 14:58 · 阅读数 98

去年面试的时候遇到的问题，年过了好好总结一下，具体啥公司都忘记了。当时只是答出了keys命令，面试官只顾着摇头了。

当我们做统计分析或全文检索的时候，一般要遍历Redis中大量的数据。然而在遍历 Redis 中的大量数据时，都需要谨慎处理以避免性能问题。列举一些常见的遍历 Redis 大量数据，以及提高遍历效率的方法。

使用 KEYS 命令

尽管 KEYS 命令可以列出所有键，但在大规模数据集上使用它可能会导致阻塞 Redis 服务器。这是因为 KEYS 是一个阻塞型的命令，会一次性返回所有匹配的键。如果数据集很大，可以考虑使用 SCAN 命令代替 KEYS。

使用 SCAN 命令

Redis 提供了 SCAN 命令用于迭代集合中的元素，避免阻塞整个数据库。这个命令可以分批次地获取一部分元素，使得遍历更加高效。

假设有一个存储用户 ID 的 Redis 集合，我们想要迭代这个集合并打印每个用户的 ID。使用 SCAN 命令可以分批次地获取一部分元素。

# 使用 SCAN 命令迭代集合
SCAN 0 MATCH user:* COUNT 1000

# 输出结果格式为 [cursor, [item1, item2, ...]]
# cursor 是下一次迭代的起始位置，item1, item2, ... 是当前批次的元素
# 例如，输出结果可能是 [123, ["user:1", "user:2", ...]]

通过以上命令，我们可以获取一个包含用户 ID 的批次，而不是一次性获取整个集合。这样可以降低单次操作的消耗，避免阻塞整个数据库。然后，我们可以根据需要重复执行 SCAN 命令，直到遍历完整个集合。

这种分批次获取元素的方式可以提高效率，减少对 Redis 服务器资源的占用，特别是在处理大型集合时。

使用数据分片

如果可能的话，可以考虑将数据分片存储在多个 Redis 实例中。这样，可以针对每个分片进行遍历，减小单个实例上的数据量。

将数据分片存储在多个Redis实例中可以带来一些好处，例如：

水平扩展性：将数据分布在多个Redis实例中，可以通过增加实例来扩展存储容量和处理能力，而不必修改现有的数据结构或应用逻辑。
提高读写并发性：将数据分散在多个实例中可以减轻单个实例的读写压力，从而提高整体的读写并发性能。
降低单点故障风险：使用多个Redis实例可以降低单个实例出现故障对整个系统的影响，提高系统的可用性和可靠性。
灵活性：可以根据数据的特点将不同类型的数据存储在不同的Redis实例中，从而更好地利用硬件资源和优化性能。

假设我们有一个存储用户信息的数据库，其中包含用户ID（UID）、用户名（username）、邮箱（email）等字段。

我们可以使用一致性哈希算法将用户ID映射到不同的Redis实例上，例如：

-   用户ID 1 到 10000 存储在 Redis 实例 1 上
-   用户ID 10001 到 20000 存储在 Redis 实例 2 上
-   以此类推...

这样，当我们需要查询特定用户的信息时，首先根据用户ID计算出它应该存储在哪个Redis实例上，然后直接向该实例发送查询请求，从而减少了在单个实例上的数据遍历操作，提高了查询效率。

使用 Lua 脚本

利用 Redis 的 Lua 脚本功能，可以在服务端执行自定义逻辑。通过编写适当的 Lua 脚本，可以实现对大量数据的遍历和处理。

假设我们有一个 Redis 数据库存储了用户的信息，每个用户有一个唯一的 ID，以及一些其他字段，比如用户名、年龄等。现在我们想要计算所有用户的年龄总和。

首先，我们编写一个 Lua 脚本来实现这个逻辑：

local totalAge = 0
local keys = redis.call('KEYS', 'user:*') -- 获取所有用户键

for i, key in ipairs(keys) do
    local age = tonumber(redis.call('HGET', key, 'age')) -- 获取用户年龄
    totalAge = totalAge + age
end

return totalAge

然后，将这个 Lua 脚本保存到 Redis 中：

EVAL "local totalAge = 0\nlocal keys = redis.call('KEYS', 'user:*')\nfor i, key in ipairs(keys) do\n    local age = tonumber(redis.call('HGET', key, 'age'))\n    totalAge = totalAge + age\nend\nreturn totalAge" 0

在这个 Lua 脚本中，我们首先使用 KEYS 命令获取所有用户键，然后遍历这些键，逐个获取用户的年龄字段，并将年龄累加到 totalAge 变量中。最后返回总年龄。

分批次处理

将遍历任务分成小批次处理，每次处理一部分数据，而不是一次性处理整个数据集。这样可以降低单次遍历的负担，减轻对 Redis 服务器的影响。

假设我们正在开发一个在线商店的应用程序，该应用程序需要在Redis中存储大量商品信息。每当有用户浏览商品时，都会从Redis中获取商品信息。如果整个商品数据集很大，一次性从Redis中获取所有商品信息可能会对Redis服务器造成较大的负担，导致性能下降。

为了降低对Redis服务器的影响，我们可以将遍历任务分成小批次处理，每次处理一部分数据。这样做可以有效地减轻Redis服务器的负担，提高应用程序的性能。

举例来说，我们可以按照商品类别将商品数据分成若干个小批次，每次只从Redis中获取一个小批次的商品信息。当用户浏览商品时，根据用户感兴趣的商品类别，从Redis中获取相应的小批次商品信息。这样就可以将整个数据集分散成多个小批次，避免了一次性获取大量数据造成的性能问题。

另外，我们还可以定期更新Redis中的商品信息，以确保数据的实时性。通过定期更新，我们可以在不影响用户体验的情况下，将遍历任务分成小批次处理，并且保持Redis中的数据与实际情况保持一致。

使用合适的数据结构

根据具体的业务需求，选择合适的 Redis 数据结构。例如，使用有序集合（Sorted Set）可以按分数范围检索元素，使用哈希表可以更方便地组织和查询数据。

以下是几种常见的 Redis 数据结构及其适用场景：

字符串（String）：
- 适用于存储简单的键值对数据，如缓存数据、计数器等。
- 通过字符串连接操作，可以实现复杂的数据结构，如序列化对象存储。
哈希表（Hash）：
- 适用于存储对象的多个字段，如用户信息、商品信息等。
- 可以通过字段名快速定位和修改对应的值，比单个字符串更方便组织和查询数据。
列表（List）：
- 适用于需要保持顺序的数据集合，如消息队列、最新动态等。
- 支持从两端进行插入和删除操作，可以实现栈和队列等数据结构。
集合（Set）：
- 适用于存储唯一值的无序集合，如用户标签、点赞列表等。
- 支持集合间的交、并、差运算，方便进行数据操作。
有序集合（Sorted Set）：
- 适用于需要按分数范围或字典顺序检索元素的场景，如排行榜、时间轴等。
- 元素的唯一性和有序性使得可以进行范围查询和排名操作。

根据具体的业务需求，可以结合以上数据结构的特点进行选择。例如：

如果需要按照时间顺序存储和获取数据，可以选择列表或有序集合。
如果需要对数据进行分类和快速检索，可以选择哈希表或集合。
如果需要按照某种评分或权重进行排序，可以选择有序集合。
如果需要进行复杂的数据操作，可以考虑组合多种数据结构来实现。

合理配置 Redis： 根据实际情况合理配置 Redis，包括适当设置缓存大小、使用合适的数据结构以及调整相关参数。

当配置 Redis 时，需要考虑到系统的实际情况，包括预期的并发量、数据量大小、访问模式等因素。下面是一些配置 Redis 的实际示例：

设置缓存大小：
- 对于内存缓存的情况，需要根据预期的数据量和系统的内存资源来设置合理的缓存大小。可以通过监控系统内存使用情况，动态调整缓存大小。
- 如果数据量较大，但内存资源有限，可以考虑使用数据淘汰策略（如LRU）来保证缓存命中率。
使用合适的数据结构：
- 如果需要缓存键值对数据，可以选择字符串或者哈希表作为数据结构。
- 如果需要按分数范围检索元素，可以选择有序集合。
- 如果需要存储唯一值且无需保持顺序，可以选择集合。
调整相关参数：
- maxmemory-policy：根据缓存策略的选择，可以设置数据淘汰策略，如LRU、LFU等，以及对应的淘汰参数。
- maxmemory-samples：设置淘汰算法的采样数量，影响淘汰策略的准确性和性能。
- timeout：设置连接超时时间，避免长时间占用连接资源。
- maxclients：设置最大客户端连接数，防止过多连接导致系统资源耗尽。

假设一个电子商务网站需要使用 Redis 来缓存商品信息和用户信息，以提高访问速度和响应性能。

设置缓存大小：根据商品和用户信息的数据量估算，配置 Redis 的内存大小，确保能够容纳所有需要缓存的数据，并预留一定空间以应对数据增长。
使用合适的数据结构：商品信息可以使用哈希表存储，每个商品对应一个哈希表，字段包括商品ID、名称、价格、描述等信息；用户信息可以使用字符串存储，每个用户对应一个字符串，存储用户ID、用户名、邮箱等信息。
调整相关参数：设置合适的数据淘汰策略和参数，如LRU策略，根据实际访问模式和数据特点进行调整；设置适当的连接超时时间和最大客户端连接数，确保系统稳定性和安全性。

总的来说在进行大规模数据集的遍历时，需要确保操作是有限和可控的，以防止对 Redis 服务器的不必要负担。

转载自:https://juejin.cn/post/7335504805245681702