五种重复数据删除模式

一直以来,数据被认为是企业的隐形财富。企业通过深入挖掘,找到有价值的数据,对其进行着重分析,最终描绘出用户画像,实现精准营销。因此,数据必须是有价值的,换言之,数据必须是可以使用的。
百度创始人李彦宏认为,“过去的人们不管产生了多少数据,其实都是在做无用功,因为我们无法利用这些数据,所以从这个意义上讲,传统产业及互联网产业在数据分析上都不占优势。我们所说的很多数据实际上也只是宏观上的预测。例如,预测中秋节、国庆节哪个景点的游客较多,春节期间哪个省份的高速公路堵车等,这些都是统计学的结果。但是通过数据分析得出某个人在某个餐厅会点什么菜,或者某个人几年后会在哪个地方工作、会和谁结婚等,百度目前还无法实现。”
从百度创始人李彦宏的话语中我们可以看出,在未来,能够进行数据分析的数据必须是可以使用、可以产生价值的。因此这就需要我们去除许多重复的、无用的数据。下面就为大家简单介绍一下重复数据删除技术,帮助大家解决这个难题。
这是一种数据缩减技术,旨在去除存储系统中的重复数据。几年前,重复数据删除技术主要用于企业备份和归档部门的存储系统。如今,重复数据删除技术已经被应用于互联网云端,帮助互联网企业过滤重复无用的数据。
IDC公司曾经预测:到2020年,全世界产生的数据规模将会是2009年数据规模的44倍。对于这些数量庞大的数据,企业开始考虑对这些数据进行筛选。对于一家企业来说,每天产生的业务数据都是一笔无形的资产,但是这其中混杂的重复无用数据正在损耗着这笔无形资产。
因此很多企业根据不断变化的用户需求定制不同的重复数据删除技术,以求获得持续高效的数据。一般而言,重复数据删除技术有以下几种模式,如图所示。

重复数据删除技术

1.备份后处理模式
备份后处理模式是在数据备份后进行的,能够有效减少备份时间。
2.内联模式
内联模式的主要优势在于最大限度地降低存储配置需求,对于需要立即复制的小型数据,这种方式是非常有效的。
3.并发模式
并发模式与备份后处理模式类似,只有运行时间不同。并发模式在第一组记录时启动,与备份模式一同运行。所以并发模式启动迅速,能够最大化利用CPU资源,特别适合集群化VTL(虚拟磁带库)环境。
4.混合模式
混合模式就是备份后处理模式、内联模式以及并发模式结合的方式。这种重复数据删除方式本身采用内联重复数据删除模式,但却不使用内联模式的删除引擎,从而大大提高了备份后处理模式与并发模式的性能。
此外,CPU处理能力较为出色的环境采用混合模式能够得到更大的好处。因为出色的CPU能力能够确保内联模式的运行,同时又能提高数据处理的速度。
5.关闭处理模式
较难进行其他重复数据删除方式的数据或者需要通过物理磁带道删除的数据可以采用关闭处理模式。例如录像文件、压缩文件、加密文件等,假如出现数据难以删除的情况,可以先选择性关闭重复数据删除中的某些功能,使其他的某些功能更高效地运作,从而节省重复数据删除时间。
以上五种重复数据删除模式各有特色,数据分析师应该根据自家企业的实际需求,选择最为合适的模式。同时在这个过程中,数据分析师还需要根据企业发展情况不断调整重复数据删除模式,达到灵活变换的地步。

未经允许不得转载:陈海飞博客 » 五种重复数据删除模式

分享到:更多 ()