数据压缩比为衡量数据压缩器压缩效率的质量指标。是指数据被压缩的比例。
中文名:数据压缩比
外文名:data compression ratio
适用领域:计算机
性质:质量指标
计算方法按存储容量规划针对不同的数据存储形式(Text,ORC,Hyperbase,ES等),分别计算所需的存储空间,总和即为存储数据需要的总存储空间。存储计算公式(HDFS默认3副本;ES默认2倍膨胀率、1副本):Text数据量×(副本数+临时存储)×冗余(1.2)ORC数据量×(副本数+临时存储)×压缩比(1:5)×冗余(1.2)Hyperbase数据量×(副本数+临时存储)×压缩比(1:3)×冗余(1.3)+索引数据量×副本数×压缩比(1:3)ES数据量×膨胀率×(1+副本数)
注意:ES的副本概念与HDFS不同,ES的副本指原始数据的额外副本数据,即1副本表示共有1(原始数据)+1(副本数据)=2份数据;HDFS的副本数即为数据保存的份数,即3副本表示共有3份数据。
非结构化数据(文档、图片、音视频等)分两种情况,一种是把这些存到hbase的lob index里,这个按照hbase的计算第二种情况是直接放到hdfs上那就是大小*副本数。参考资料1.数据压缩比·911查询