Mysql性能优化：如何给字符串加索引？

站长

2023年09月16日 23:31 · 阅读数 13

导读

顾名思义，对于列值较长，比如`BLOB`、`TEXT`、`VARCHAR`，就 "必须" 使用**前缀索引**，即将值的前一部分作为索引。因为索引的存储也是需要空间的，同样索引太长维护起来也比较困难。
比如我们给`User`表中的邮箱添加前缀索引，如下:

alter table user add index index1(email(7));
上述语句将email的前7个字符作为索引。

我们分别将`email`的全部作为索引和前7个字符作为索引来看看在性能上有什么差异。建立索引的语句如下：

alter table user add index index1(email);

alter table user add index index2(email(7));
假设有`user`表中有这样几条数据(id,name,email)：`(1,"陈某","chenmou1993@xxx")`、`(2,"张某","chenmou1994@xxx")`、`(3,"李某","chenmou1995@xxx")`、`(4,"王某","chenmou1996@xxx")`。
对应于index1和index2的索引树如下两张图：

![](https://p1-jj.byteimg.com/tos-cn-i-t2oaga2asx/gold-user-assets/2020/4/2/17139f61d1c39a6a~tplv-t2oaga2asx-image.image)

![](https://p1-jj.byteimg.com/tos-cn-i-t2oaga2asx/gold-user-assets/2020/4/2/17139f61d21873ae~tplv-t2oaga2asx-image.image)

【1】普通索引的执行过程

这个过程中，只需要回主键索引取一次数据，所以系统认为只扫描了一行。

【2】前缀索引的执行过程

在这个过程中，要回主键索引取4次数据，也就是扫描了4行。

通过以上查询的对比，很容易就可以发现，**使用前缀索引后，可能会导致查询语句读数据的次数变多。**
但是对于这个查询语句来说，如果建立的前缀索引的长度为13呢？那么满足`chenmou1995`的记录只有一个，这样就可以直接定位到`id=2`，此时不但空间缩小了，扫描的行数也减少了。
于是结论就来了：**使用前缀索引，只要定义好长度，就可以做到既节省空间，又不用额外增加太多的查询成本。**
那么如何建立正确的前缀索引才能达到最佳的性能呢？接着往下看................

通过上述的比较，可以得出一个结论，**建立前缀索引的区分度越高越好，意味着重复的键值越少**。
那么如何统计区分度，其实很简单，只需要判断数据库中重复的次数即可。sql如下：

select count(distinct left(email,4)）as L4, count(distinct left(email,5)）as L5, count(distinct left(email,6)）as L6, count(distinct left(email,7)）as L7, from user;
但是如果对于使用前缀区分度不太好的情况，比如，我们国家的身份证号，一共18位，其中前6位是地址码，所以同一个县的人的身份证号前6位一般会是相同的。这时候如果对身份证号做长度为6的前缀索引的话，这个索引的区分度就非常低了。
按照我们前面说的方法，可能你需要创建长度为12以上的前缀索引，才能够满足区分度要求。
但是，索引选取的越长，占用的磁盘空间就越大，相同的数据页能放下的索引值就越少，搜索的效率也就会越低。
那么，如果我们能够确定业务需求里面只有按照身份证进行等值查询的需求，还有没有别的处理方法呢？这种方法，既可以占用更小的空间，也能达到相同的查询效率。现在简单的介绍一种解决此种问题的方式，当然方法肯定不止一种，如下：

【1】倒序存储

如果你存储身份证号的时候把它倒过来存，每次查询的时候，你可以这么写：

 select field_list from t where id_card = reverse('输入的身份证号');

由于身份证号的最后6位没有地址码这样的重复逻辑，所以最后这6位很可能就提供了足够的区分度。当然了，实践中你不要忘记使用count(distinct)方法去做个验证。

转载自:https://juejin.cn/post/6844904113071718408