Cassandra Leveled Compaction Strategy

2023-02-13 97

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 这篇文章19年写的，重新发到开发者社区翻新下。

2000元阿里云代金券免费领取，2核4G云服务器仅664元/3年，新老用户都有优惠，立即抢购>>>

阿里云采购季（云主机223元/3年）活动入口：请点击进入>>>，

阿里云学生服务器（9.5元/月）购买入口：请点击进入>>>，

前言

Cassandra是基于LSM架构的分布式数据库。LSM中有一个很重要的过程，就是压缩（Compaction）。默认的压缩策略是SizeTieredCompactionStrategy，今天主要说一下另一种压缩策略LeveledCompactionStrategy。

LeveledCompactionStrategy

LeveledCompactionStrategy被用在读密集的场景，读操作的延迟相对容易估算（最坏情况可控），缺点是会有更多的磁盘IO消耗。

SSTable合并过程

这个压缩算法主要是将数据分级(L0,L1,L2……)。最开始数据在内存（memtable）里，然后被flush到磁盘上，也就是到了L0这级。L0的sstable会和L1的合并成更大的sstable。

大于等于L1的层级，sstable大小会被控制在sstable_size_in_mb(160MB)。每个层级之间数据量是10倍的关系，即L2的数据量是L1的10倍。我们假设L1可以容纳10*160MB，那么L2可以容纳100*160MB。如果在L1做压缩，结果大于10哥文件，则会被合并到L2。如此反复，多出来的文件会跟下一层级中有重叠的文件合并。

非常多次写入后

性能分析

经过上面这个合并流程，LCS 会保证每个层级内的每个文件数据不重叠（除了L0），这也就是它高效原因所在。你所要读的数据大概率会只在某个层级中，而层级内文件数据不重复，所以你大概率只需要读一个文件即可。这个概率是多少呢，大约是90%。这个是怎么算的呢？因为每一层是前一层的10倍，所以最后一层容纳了大部分数据。比如：L1=10，L2=100，L3=1000，L3占比90.09%。同理，可以推出无用数据（删除或被覆盖的），最多占比10%左右（假设L1和L2全是无用数据）。

如果是更新删除比较高频的场景，那么读最坏情况，可能需要访问每个层级，每个层级读一个文件（L0除外），所以说最坏情况可控。如果L0中的文件出现积压，是有可能出现更坏的情况都，需要再访问L0中大部分文件。

Cassandra Leveled Compaction Strategy

前言

LeveledCompactionStrategy

SSTable合并过程

非常多次写入后

性能分析

热门文章

最新文章

相关电子书