我正在探索更有效地使用我们的主存储的选项。
我们目前的NAS是带有HP Storageworks MSA20的HP ProLiant DL380 G5和另一个磁盘架,我不确定它是什么。
我们的绝大多数文件都是PDF文件(数以百万计),具有高度的相似性。
在来自George Crump (来自Data Domain的Dedupe Central )的专家意见 中 ,在关于粒度的部分中,他说:“要有效地进行重复数据删除,需要使用可变长度段在子文件级进行。
这很难find,但我正是需要的。 大多数重复数据删除选项似乎是基于块的,这对于最大限度地减less备份占用的空间非常有效,因为只有更改的块被存储,但是基于块的技术在我们的块内不会find位于不同偏移处的相同片段PDF文件。
有一天我偶然遇到了Ocarina Networks ,这看起来正是我们所需要的。
存储瑞士的实验室报告概述 – 主存储的重复数据删除比较Ocarina Networks和NetApp是“主存储重复数据删除领域的两个领导者”。
理想情况下,我们希望继续使用我们现有的NAS,但要高效得多。
我遇到的另一个解决scheme是Storwize ,它似乎执行单个文件的内联压缩,并与重复数据删除解决scheme集成在一起。
还有什么其他解决scheme和信息资源?
我发现大多数黑盒解决scheme的重复数据删除效率不如直接内置到存储中的效率和效率。
例如,一个黑盒装置将需要所有的数据在两个方向上通过它,然后才能访问您正在使用的任何通用存储,处理所有的数据以进行重复数据删除,而存储arrays(如NetApp,Data Domain,还有其他许多function,允许您控制每个卷的重复数据删除,所有处理都在控制器上完成。
如果您使用现有的非智能存储,但在其前面使用解决scheme,我会推荐数据域,但老实说,我会鼓励您升级到不同的存储系统,可以在内部解密。
我将研究NetApp V系列存储控制器。 这些允许您将智能磁盘控制器连接到已有的现有磁盘架硬件。
您正在寻找的技术被称为重复数据删除,并且有大量供应商提供重复数据删除技术。
如果您使用的是SAN,请致电您的SAN供应商,他们会全力以赴向您推销其重复数据删除选项。
这里有一个关于如何开始重复数据删除的好资源:
我知道MSA范围很好,我认为你很难用你所拥有的数据进行重复数据删除,因为一开始,重复数据删除是一个相当缓慢的IO密集型工作,最好由实际的SAN / NAS控制器完成。 在备份场景中,备份场景略有不同,因为备份媒体服务器可以进行重复数据删除,但是实时数据对于维护数据完整性和整体性能非常重要,而且我不确定是否有任何“后续附加组件”我真的会给你你需要的东西
值得注意的是, Ocarina系统拖网一个原始文件系统,并看到一个文件是否符合政策。 如果是的话,Ocarina盒子将文件扩展出来并应用他们专有的压缩algorithm。 然后将这个新文件写入一个新的不同的文件系统,可选地删除原始文件。
显然,读取端可以设置一个熔丝文件系统,以便读取到原始文件系统可以被保险丝拦截以使用“优化”版本,使得听起来更加透明,然后是原始销售人员描述的。
备份中央的归档磁盘目标列表
(不要将它们与更广泛的磁盘目标备份相混淆)
由balesio提供的FILEminimizer Server是一种纯软件解决scheme,可以优化保存本机文件格式的Office和图像文件。 这些文件可以释放多达70%的存储容量。 http://www.balesio.com/fileminimizerserver