mysql索引的机制(Mysql索引选择以及优化详解)
mysql索引的机制
Mysql索引选择以及优化详解索引模型
哈希表
- 适用于只有等值查询的场景,memory引擎默认索引
- innodb支持自适应哈希索引,不可干预,由引擎自行决定是否创建
有序数组:在等值查询和范围查询场景中的性能都非常优秀,但插入和删除数据需要进行数据移动,成本太高。因此,只适用于静态存储引擎
二叉平衡树:每个节点的左儿子小于父节点,父节点又小于右儿子,时间复杂度是 o(log(n))
多叉平衡树:索引不止存在内存中,还要写到磁盘上。为了让一个查询尽量少地读磁盘,就必须让查询过程访问尽量少的数据块。因此,要使用“n 叉”树。
b+tree
b-tree 与 b+tree
b-tree
b+tree
innodb 使用了 b+ 树索引模型。假设,我们有一个主键列为 id 的表,表中有字段 k,并且在 k 上有索引,如下所示:
- 主键索引:也被称为聚簇索引,叶子节点存的是整行数据
- 非主键索引:也被称为二级索引,叶子节点内容是主键的值
注意事项
- 索引基于数据页有序存储,可能发生数据页的分裂(页存储空间不足)和合并(数据删除造成页利用率低)
- 数据的无序插入会造成数据的移动,甚至数据页的分裂
- 主键长度越小,普通索引的叶子节点就越小,普通索引占用的空间也就越小
- 索引字段越小,单层可存储数据量越多,可减少磁盘io
|
// 假设一个数据页16k、一行数据1k、索引间指针6字节、索引字段 bigint 类型(8字节) // 索引个数 k = 16*1024/(8+6) =1170 // 单个叶子节点记录数 n = 16/1 = 16 // 三层b+记录数 v = k*k*n = 21902400 |
myisam也是使用b+tree索引,区别在于不区分主键和非主键索引,均是非聚簇索引,叶子节点保存的是数据文件的指针
索引选择
优化器选择索引的目的,是找到一个最优的执行方案,并用最小的代价去执行语句。在数据库里面,扫描行数是影响执行代价的因素之一。扫描的行数越少,意味着访问磁盘数据的次数越少,消耗的 cpu 资源越少。
当然,扫描行数并不是唯一的判断标准,优化器还会结合是否使用临时表、是否排序等因素进行综合判断。
扫描行数如何计算
一个索引上不同的值越多,这个索引的区分度就越好。而一个索引上不同的值的个数,称之为“基数”(cardinality)。
|
-- 查看当前索引基数 mysql> show index from test; + -------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+ | table | non_unique | key_name | seq_in_index | column_name | collation | cardinality | sub_part | packed | null | index_type | comment | index_comment | + -------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+ | test | 0 | primary | 1 | id | a | 100256 | null | null | | btree | | | | test | 1 | index_a | 1 | a | a | 98199 | null | null | yes | btree | | | + -------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+ |
从性能的角度考虑,innodb 使用采样统计,默认会选择 n 个数据页,统计这些页面上的不同值,得到一个平均值,然后乘以这个索引的页面数,就得到了这个索引的基数。因此,上述两个索引显示的基数并不相同。
而数据表是会持续更新的,索引统计信息也不会固定不变。所以,当变更的数据行数超过 1/m 的时候(innodb_stats_persistent=on时默认10,反之16),会自动触发重新做一次索引统计。
|
mysql> show variables like '%innodb_stats_persistent%' ; + --------------------------------------+-------------+ | variable_name | value | + --------------------------------------+-------------+ -- 是否自动触发更新统计信息,当被修改的数据超过10%时就会触发统计信息重新统计计算 | innodb_stats_auto_recalc | on | -- 控制在重新计算统计信息时是否会考虑删除标记的记录 | innodb_stats_include_delete_marked | off | -- 对null值的统计方法,当变量设置为nulls_equal时,所有null值都被视为相同 | innodb_stats_method | nulls_equal | -- 操作元数据时是否触发更新统计信息 | innodb_stats_on_metadata | off | -- 统计信息是否持久化存储 | innodb_stats_persistent | on | -- innodb_stats_persistent=on,持久化统计信息采样的抽样页数 | innodb_stats_persistent_sample_pages | 20 | -- 不推荐使用,已经被innodb_stats_transient_sample_pages替换 | innodb_stats_sample_pages | 8 | -- 瞬时抽样page数 | innodb_stats_transient_sample_pages | 8 | + --------------------------------------+-------------+ |
- 除了因为抽样导致统计基数不准外,mvcc也会导致基数统计不准确。例如:事务a先事务b开启且未提交,事务b删除部分数据,在可重复读中事务a还可以查询到删除的数据,此部分数据目前至少有两个版本,有一个标识为deleted的数据。
- 主键是直接按照表的行数来估计的,表的行数,优化器直接使用show table status like 't'的值
- 手动触发索引统计:
|
-- 重新统计索引信息 mysql> analyze table t; |
排序对索引选择的影响
|
-- 创建表 mysql> create table `t` ( `id` int (11) not null , `a` int (11) default null , `b` int (11) default null , primary key (`id`), key `a` (`a`), key `b` (`b`) ) engine=innodb; -- 定义测试数据存储过程 mysql> delimiter ; create procedure idata () begin declare i int ; set i = 1 ; while (i <= 100000) do insert into t values (i, i, i) ; set i = i + 1 ; end while ; end ; delimiter ; -- 执行存储过程,插入测试数据 mysql> call idata (); -- 查看执行计划,使用了字段a上的索引 mysql> explain select * from t where a between 10000 and 20000; + ----+-------------+-------+-------+---------------+-----+---------+------+-------+-----------------------+ | id | select_type | table | type | possible_keys | key | key_len | ref | rows | extra | + ----+-------------+-------+-------+---------------+-----+---------+------+-------+-----------------------+ | 1 | simple | t | range | a | a | 5 | null | 10000 | using index condition | + ----+-------------+-------+-------+---------------+-----+---------+------+-------+-----------------------+ -- 由于需要进行字段b排序,虽然索引b需要扫描更多的行数,但本身是有序的,综合扫描行数和排序,优化器选择了索引b,认为代价更小 mysql> explain select * from t where (a between 1 and 1000) and (b between 50000 and 100000) order by b limit 1; + ----+-------------+-------+-------+---------------+-----+---------+------+-------+------------------------------------+ | id | select_type | table | type | possible_keys | key | key_len | ref | rows | extra | + ----+-------------+-------+-------+---------------+-----+---------+------+-------+------------------------------------+ | 1 | simple | t | range | a,b | b | 5 | null | 50128 | using index condition; using where | + ----+-------------+-------+-------+---------------+-----+---------+------+-------+------------------------------------+ -- 方案1:通过force index强制走索引a,纠正优化器错误的选择,不建议使用(不通用,且索引名称更变语句也需要变) mysql> explain select * from t force index (a) where (a between 1 and 1000) and (b between 50000 and 100000) order by b limit 1; + ----+-------------+-------+-------+---------------+-----+---------+------+------+----------------------------------------------------+ | id | select_type | table | type | possible_keys | key | key_len | ref | rows | extra | + ----+-------------+-------+-------+---------------+-----+---------+------+------+----------------------------------------------------+ | 1 | simple | t | range | a | a | 5 | null | 999 | using index condition; using where ; using filesort | + ----+-------------+-------+-------+---------------+-----+---------+------+------+----------------------------------------------------+ -- 方案2:引导 mysql 使用我们期望的索引,按b,a排序,优化器需要考虑a排序的代价 mysql> explain select * from t where (a between 1 and 1000) and (b between 50000 and 100000) order by b,a limit 1; + ----+-------------+-------+-------+---------------+-----+---------+------+------+----------------------------------------------------+ | id | select_type | table | type | possible_keys | key | key_len | ref | rows | extra | + ----+-------------+-------+-------+---------------+-----+---------+------+------+----------------------------------------------------+ | 1 | simple | t | range | a,b | a | 5 | null | 999 | using index condition; using where ; using filesort | + ----+-------------+-------+-------+---------------+-----+---------+------+------+----------------------------------------------------+ -- 方案3:有些场景下,我们可以新建一个更合适的索引,来提供给优化器做选择,或删掉误用的索引 alter table `t` drop index `a`, drop index `b`, add index `ab` (`a`,`b`) ; |
索引优化
索引选择性
索引选择性 = 基数 / 总行数
|
-- 表t中字段xxx的索引选择性 select count ( distinct xxx)/ count (id) from t; |
索引的选择性,指的是不重复的索引值(基数)和表记录数的比值。选择性是索引筛选能力的一个指标,索引的取值范围是 0~1 ,当选择性越大,索引价值也就越大。
在使用普通索引查询时,会先加载普通索引,通过普通索引查询到实际行的主键,再使用主键通过聚集索引查询相应的行,以此循环查询所有的行。若直接全量搜索聚集索引,则不需要在普通索引和聚集索引中来回切换,相比两种操作的总开销可能扫描全表效率更高。
实际工作中,还是要看业务情况,如果数据分布不均衡,实际查询条件总是查询数据较少的部分,在索引选择较低的列上加索引,效果可能也很不错。
覆盖索引
覆盖索引可以减少树的搜索次数,显著提升查询性能,所以使用覆盖索引是一个常用的性能优化手段
|
-- 只需要查 id 的值,而 id 的值已经在 k 索引树上了,因此可以直接提供查询结果,不需要回表 select id from t where k between 3 and 5 -- 增加字段v,每次查询需要返回v,可考虑把k、v做成联合索引 select id,v from t where k between 3 and 5 |
最左前缀原则+索引下推
|
-- id、name、age三列,name、age上创建联合索引 -- 满足最左前缀原则,name、age均走索引 select * from t where name = 'xxx' and age=12 -- mysql自动优化,调整name、age顺序,,name、age均走索引 select * from t where age=12 and name = 'xxx' -- name满足最左前缀原则走索引,mysql5.6引入索引下推优化(index condition pushdown),即索引中先过滤掉不满足age=12的记录再回表 select * from t where name like 'xxx%' and age=12 -- 不满足最左前缀原则,均不走索引 select * from t where name like '%xxx%' and age=12 -- 满足最左前缀原则,name走索引 select * from t where name = 'xxx' -- 不满足最左前缀原则,不走索引 select * from t where age=12 |
联合索引建立原则:
- 如果通过调整顺序,可以少维护一个索引,那么这个顺序往往就是需要优先考虑采用的
- 空间:优先小字段单独建立索引,例如:name、age,可建立(name,age)联合索引和(age)单字段索引
前缀索引
|
mysql> create table suser( id bigint unsigned primary key , name varchar (64), email varchar (64), ... )engine=innodb; -- 以下查询场景 mysql> select name from suser where email= 'xxx' ; -- 方案1:全文本索引,回表次数由符合条件的数据量决定 mysql> alter table suser add index index1(email); -- 方案2:前缀索引,回表次数由前缀匹配结果决定 mysql> alter table suser add index index2(email(6)); |
前缀索引可以节省空间,但需要注意前缀长度的定义,在节省空间的同时,不能增加太多查询成本,即减少回表验证次数
如何设置合适的前缀长度?
|
-- 预设一个可以接受的区分度损失比,选择满足条件中最小的前缀长度 select count ( distinct left (email,n))/ count ( distinct email) from suser; |
如果合适的前缀长度较长?
比如身份证号,如果满足区分度要求,可能需要12位以上的前缀索引,节约的空间有限,又增加了查询成本,就没有必要使用前缀索引。此时,我们可以考虑使用以下方式:
倒序存储
|
-- 查询时字符串反转查询 mysql> select field_list from t where id_card = reverse( 'input_id_card_string' ); |
使用hash字段
|
-- 创建一个整数字段,来保存身份证的校验码,同时在这个字段上创建索引 mysql> alter table t add id_card_crc int unsigned, add index (id_card_crc); -- 查询时使用hash字段走索引查询,再使用原字段精度过滤 mysql> select field_list from t where id_card_crc=crc32( 'input_id_card_string' ) and id_card= 'input_id_card_string' |
以上两种方式的缺点:
- 不支持范围查询
- 使用hash字段需要额外占用空间,新增了一个字段
- 读写时需要额外的处理,reverse或者crc32等
前缀索引对覆盖索引的影响?
|
-- 使用前缀索引就用不上覆盖索引对查询性能的优化 select id,email from suser where email= 'xxx' ; |
唯一索引
建议使用普通索引,唯一索引无法使用change buffer,内存命中率低
索引失效
- 不做列运算,包括函数的使用,可能破坏索引值的有序性
- 避免 %xxx 式查询使索引失效
- or语句前后没有同时使用索引,当or左右查询字段只有一个是索引,该索引失效
- 组合索引abc问题,最左前缀原则
- 隐式类型转化
- 隐式字符编码转换
- 优化器放弃索引,回表、排序成本等因素影响,改走其它索引或者全部扫描
总结
到此这篇关于mysql索引选择以及优化的文章就介绍到这了,更多相关mysql索引选择优化内容请搜索开心学习网以前的文章或继续浏览下面的相关文章希望大家以后多多支持开心学习网!
原文链接:https://www.cnblogs.com/sheung/p/14582450.html
- mysql演示事务提交(MySQL找出未提交事务的SQL实例浅析)
- 查询mysql 死锁(MySQL线上死锁分析实战)
- mysql事务级别设置(mysql在项目中怎么选事务隔离级别)
- mysql日期用法(MySQL DATE_ADD和ADDDATE函数实现向日期添加指定时间间隔)
- mysql数据类型
- mysql使用步骤(聊一聊MySQL角色Role功能)
- mysql中mergeinto的用法(MySQL中exists、in及any的基本用法)
- php不能用mysql(php写入mysql中文乱码的实例解决方法)
- mysql主从复制延迟解决方案(关于mysql主备切换canal出现的问题解决)
- navicat连接报错10038(解决Navicat for Mysql连接报错1251的问题连接失败)
- mysql的主从复制怎么做(MySQL主从复制原理以及需要注意的地方)
- 创建数据库入门教程mysql(MySQL数据库安装教程一学就会)
- mysql程序中判断select返回空值(解决MySQL读写分离导致insert后select不到数据的问题)
- mysql中的null是什么(浅谈为什么Mysql数据库尽量避免NULL)
- 查看mysql所有权限(MySQL 权限控制细节分析)
- MySQL执行事务的语法与流程详解(MySQL执行事务的语法与流程详解)
- 官宣 全椒籍明星许海峰 奚秀兰 方芳 王璐瑶携手回家 走太平(全椒籍明星许海峰)
- 以前全椒人是怎么过冬的 满满都是回忆(以前全椒人是怎么过冬的)
- NVIDIA显卡份额冲上88 A饭发愁 游戏优化恐没A卡份了(NVIDIA显卡份额冲上88A饭发愁)
- AMD YES A卡还是N卡 A卡和N卡的区别(AMDYESA卡还是N卡)
- 以后显卡多了一个新选择,N卡和A卡外又多了个I卡(以后显卡多了一个新选择)
- 读卖乐园的彩灯(读卖乐园的彩灯)
热门推荐
- php执行语句(PHP goto语句用法实例)
- sql表更新关联语句(SQL update 多表关联更新的实现代码)
- 从宝塔面板找网站会员数据(BT宝塔面板高并发大流量网站优化方案分享)
- docker显示容器的gc日志(解决docker使用GDB,无法进入断点的问题)
- mysqlmha架构图(MySQL之MHA高可用配置及故障切换实现详细部署步骤)
- 织梦栏目怎么管理(织梦“模块管理”里面的“模块列表”显示空白的解决方法)
- mysql从入门到实践万字详解(mysql基础知识扫盲)
- C# #define条件编译
- canvas如何在网页上画图形(canvas绘制图片drawImage使用方法)
- vue切换图片效果(Vue.js实现图片切换功能)
排行榜
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9