什么是布隆过滤器？

站长

2024年03月19日 08:12 · 阅读数 81

布隆过滤器（Bloom Filter）是一种空间效率高的概率型数据结构，用于判断一个元素是否在一个集合中。它的主要特点是能够快速检查一个元素是否属于一个集合，而且非常节省空间，但是有一定的误判率。换句话说，布隆过滤器可以告诉你“这个元素绝对不在集合中”或者“这个元素可能在集合中”。

原理

布隆过滤器的工作原理基于多个不同的哈希函数和一个大型的位数组。下面是布隆过滤器的基本工作原理：

初始化：首先，初始化一个长度为 (m) 的位数组，所有位都设置为0。然后选择 (k) 个哈希函数，每个函数都能将集合中的任意元素映射到位数组的一个位置上。
添加元素：要添加一个元素到布隆过滤器中，就使用这 (k) 个哈希函数分别对这个元素进行哈希，得到 (k) 个数组位置。然后将这些位置上的位都设置为1。
查询元素：要检查一个元素是否在集合中，也使用这 (k) 个哈希函数对元素进行哈希，得到 (k) 个位置。如果所有这些位置上的位都是1，那么就认为这个元素“可能”在集合中；如果任何一个位置上的位是0，就可以确定这个元素“绝对不在”集合中。

特点

空间效率高：相比于其他数据结构，布隆过滤器使用很少的空间来存储大量数据的存在信息。
查询时间快：无论数据量大小，查询时间都非常快，时间复杂度接近于常数 (O(k))，(k) 是哈希函数的数量。
无法删除元素：布隆过滤器无法从中删除元素，因为将位设置回0可能会影响到其他元素的判断。但是有一种变体，称为“可计数的布隆过滤器”（Counting Bloom Filter），允许删除元素。
有一定的误判率：布隆过滤器可能会错误地判断一个不在集合中的元素为在集合中（假阳性），但不会错误地判断一个在集合中的元素为不在集合中（假阴性）。

在 Spring Cloud Alibaba 微服务体系中，布隆过滤器可以被用于多种场景，如服务限流、防止缓存穿透等。不过，直接在 Spring Cloud Alibaba 组件中使用布隆过滤器的例子相对少见，因为布隆过滤器的使用往往更多地集中在应用层面的优化，例如在使用 Nacos 作为服务注册与发现时优化服务调用，或者在使用 Sentinel 进行流量控制时减少不必要的资源访问。

一种典型的使用场景是防止缓存穿透，这在使用 Spring Cloud Alibaba 的任何微服务应用中都可能遇到。缓存穿透是指查询不存在的数据，由于缓存不命中而直接请求数据库，如果大量这样的请求发生，会对数据库造成很大压力。

实例代码：防止缓存穿透

假设你有一个基于 Spring Boot 和 Spring Cloud Alibaba 的微服务，用于处理商品信息的查询。我们可以使用布隆过滤器来检查请求的商品ID是否可能存在于数据库中，从而避免对不存在的商品ID进行数据库查询。

引入依赖

首先，确保你的 pom.xml 文件中包含了需要的依赖。这里我们不直接依赖 Spring Cloud Alibaba 的组件，而是使用 Google 的 Guava 库来实现布隆过滤器：

<dependency>
    <groupId>com.google.guava</groupId>
    <artifactId>guava</artifactId>
    <version>最新版本</version>
</dependency>

创建布隆过滤器

在应用启动时，根据实际情况初始化布隆过滤器。这里的例子简单演示了如何创建一个布隆过滤器，并预先填充一些数据。

import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;

public class BloomFilterService {

    private BloomFilter<Integer> bloomFilter;

    public BloomFilterService() {
        // 假设预计插入量为1000，误判率为0.01
        bloomFilter = BloomFilter.create(Funnels.integerFunnel(), 1000, 0.01);
        // 假设的初始化数据
        for (int i = 0; i < 1000; i++) {
            bloomFilter.put(i);
        }
    }

    public boolean mightContain(int id) {
        return bloomFilter.mightContain(id);
    }
}

使用布隆过滤器进行查询

在处理查询请求之前，先通过布隆过滤器判断商品ID是否可能存在。

@RestController
public class ProductController {

    @Autowired
    private BloomFilterService bloomFilterService;

    @GetMapping("/product/{id}")
    public ResponseEntity<String> getProduct(@PathVariable int id) {
        // 使用布隆过滤器先判断
        if (!bloomFilterService.mightContain(id)) {
            return ResponseEntity.status(HttpStatus.NOT_FOUND).body("Product not found");
        }
        
        // 这里是模拟的数据库查询逻辑
        String product = findProductById(id); // 假设的数据库查询方法
        if (product == null) {
            return ResponseEntity.status(HttpStatus.NOT_FOUND).body("Product not found");
        }
        return ResponseEntity.ok(product);
    }

    private String findProductById(int id) {
        // 模拟查询数据库
        return "Product Details";
    }
}

这个例子展示了如何在微服务中使用布隆过滤器来减少对数据库的不必要查询，特别是在处理可能不存在的数据请求时。通过减少这些查询，可以显著减轻数据库的压力，提高整体应用性能。当然，实际使用时需要根据具体业务和数据情况调整布隆过滤器的初始化参数和逻辑。

总结

布隆过滤器广泛应用于网络信息处理、分布式系统、缓存系统等领域，特别是在需要快速、空间效率地检查一个大型数据集合是否包含某个元素时非常有用。布隆过滤器是解决特定问题的高效数据结构，尤其适用于处理大量数据和高速查询需求的场景，其空间效率和查询速度是其主要优势。然而，使用布隆过滤器时需要接受其固有的误判率，并根据实际应用场景仔细设计其参数。

转载自:https://juejin.cn/post/7334723606260924453