Articles of 重复数据删除

具有实时重复数据删除function的文件系统

有一个文件系统存储在一个散列下的文件,所以没有重复? 它可以在任何操作系统下运行。 我知道Git是这样做的,但是我正在寻找可以实时运行的东西。

从其他操作系统访问Windows Server重复数据删除文件

如果您在Windows Server 2012上启用重复数据删除,则会更改某些文件(根据策略)并引入重新分析点。 如果包含已删除重复数据的卷的驱动器从Windows Server 2012中分离并与另一个操作系统(如Windows 8)连接到另一个系统,则卷可读,但重复数据删除策略中包含的文件无法访问或复制。 一种方法是使用Start-DedupJob -Type Unoptimization powershell命令取消优化卷,但是我的问题是,有没有办法使这些文件至less在Windows 8中以优化forms可访问?

ZFS块重复数据删除如何适合可变块大小?

根据“ZFS重复数据删除”的首个Googlesearch结果, … 什么去重:文件,块或字节? … 当整个文件被复制时,块级重复数据删除比文件级别重复数据删除要高一些,但与文件级别重复数据删除不同,它能够非常好地处理块级数据,如虚拟机映像。 … ZFS提供块级重复数据删除 … 根据维基百科的ZFS文章 ZFS使用最大128千字节的可变大小块。 当前可用的代码允许pipe理员调整所使用的最大块大小,因为某些工作负载在大块中performance不佳。 如果启用数据压缩(LZJB),则使用可变块大小。 如果可以压缩块以适应较小的块大小,则磁盘上使用的较小大小可以使用较less的存储空间并提高IO吞吐量(尽pipe以增加CPU使用量为代价进行压缩和解压缩操作)。 我想确保我正确理解这一点。 假设压缩closures 如果我是一个1GB的随机填充文件,那么我写的第二个文件是相同的,除了中途通过,我改变了一个字节。 将该文件重复数据删除(除了已更改的字节块吗?) 如果我写一个字节的文件,它会占用整个128千字节吗? 如果不是,文件变长的话,块会变大吗? 如果一个文件需要两个64千字节的块(这是否会发生?),那么在一个128千字节的块 如果一个文件被缩短,那么它的部分块将被忽略,也许数据不会被重置为0x00字节。 半使用块将被删除?

IaaS对象存储(S3 / Azure Blob)的重复数据删除和成本节约

做任何商业IaaS对象存储(S3,Azure Blob等)避免多次存储重复数据(相同的文件,或部分文件)? 例如,我们有一个15 TB的tweet数据集,我们的团队中的一个想要做一个副本,然后对数据进行一些修改。 我们会收取30TB的存储费吗? 有没有一种很好的方法来查找这些大型对象存储上的重复块,或就地压缩大型数据集? 我们可以用某种符号链接replace重复的文件吗?

tar档案的重复数据删除

现在我想在我的linux备份服务器上configurationZFS重复数据删除function,并有一个问题。 例如,我在backup1.tar中有1k个文件,在backup2.tar中有1个相同的文件和1个新的文件。 这个文件将被重复删除或不是? 正如我所看到的,它不适用于tar档案。 也许我做错了什么。

Windows 2016存储空间直接+重复数据删除

有没有人结合S2D(存储空间直接)与重复数据删除? 这是甚至可能的或推荐的做法? 请详细说明为什么这是一个好主意。 编辑:刚刚偶然发现这篇文章https://blogs.technet.microsoft.com/filecab/2016/01/05/new-support-for-windows-server-data-deduplication-in-limited-local-hyper-configuration/关于Server 2012 R2。 它确实提到了Server 2016,但当时还没有完全发布。 还有更多关于S2D的信息以及Server 2016上的数据重复数据删除 – 这里https://technet.microsoft.com/en-us/windows-server-docs/storage/storage,但没有太多关于使用两者的信息。 它似乎基于第一个url,他们在同一时间使用时function有限。

以最小的数据重复存储多个版本的大型二进制文件(最好是Linux)

我需要在具有本地存储的Linux服务器上存储〜150 GB二进制文件(qcow2)的多个版本,并且希望有一些解决scheme,只需保留可根据需要合并的差异,以便不必创build另一个当只有4Gigs改变时,一个150GB文件的副本。 这是一个存储问题,而不是关于KVM / qcow2特定function的问题。 我已经探讨了其中的一些select。 目前使用CentOS 6.3和EXT4。 这些文件需要无限期存储,并且在恢复时必须完整无缺。 我愿意改变文件系统等,如果一个解决scheme是值得的。

全function的中型企业在线备份提供商?

我一直在撞墙,试图find一个支持以下所有企业特性的在线备份服务: 适用于Linux和Windows 2003/2008服务器的全系统备份,包括Windowsregistry,系统状态,Active Driectory等。这个要求淘汰了大多数着名的在线玩家。 使用本地控制的密钥进行encryption 重复数据删除,有一个理智的和有希望的可调保留策略。 两个星期是不够的。 总部有一个45 Mbps的连接,在10M文件中有大约5TB的无压缩备份。 有些单个文件大小高达150 GB(MSSQL和Exchange数据库)。 这意味着带宽效率。 通过Windows Volume ShadowCopy服务支持SQL Server 2005/2008和Exchange 2007/2010备份。 (再一次,几乎没有任何在线服务能够做到这一点,而“转储到本地文件,然后返回”scheme对于150 GB数据库不起作用。) 合理的文件系统元数据支持,包括恢复,Windows和Linux权限是必须的。 (许多在线提供商令人震惊地失踪)。 Gruanular Sharepoint项目恢复是一个非常理想的function,但我们可以没有它的生活。 提供即付即用,全额运营的定价,而不需要像Mozy那样预留空间。 不是BackupExec,我们只是不能再信任做一个实际的恢复。 下载多GB的服务版本,每隔几周进行一次质量检查和安装,已经变得站不住脚。 另一个曾经伟大的产品赛门铁克已经销毁。 合理的成功/失败报告提供足够的信息来追踪丢失或跳过的数据(再次,大多数在线玩家在这个领域大量失败)。 能够在灾难恢复情况下将数据恢复到公有云(有希望成为系统状态)(淘汰VMware看起来很有前途的解决scheme)。 我已经尝试过或深入阅读了CrashPlan,Mozy,JungleDisk,Carbonite,i365等等。 但即使是这些服务的“服务器”或“专业”版本,也缺乏一个或多个“桌面桌面”function,这是所有面向业务的,基于场景的备份软件都有的。 请注意,我们并不是在这里寻找免费的,甚至是廉价的,只是一些运作良好,没有多less照顾和喂养的情况下是可靠的。

正确使用磁盘到磁盘来使用重复数据删除和LTO5进行磁带备份

我目前有一个完整的磁盘到磁带(LTO3)备份大约12TB的数据。 不用说,它现在需要超过16个磁带,所以我正在寻找其他解决scheme。 这是我想出来的。 我想听听社区的想法。 服务器磁盘到磁盘 BackupExec 2010使用重复数据删除技术 价值20 + TB的SATA驱动器 通过SAS连接的LTO5机器人库 连接到networking的1Gbps网卡 我所设想的是对整个networking进行完整备份,这个备份最初将花费很长时间在1Gbps的网卡上,但是一旦重复数据删除就应该是快速的。 然后,我将使用LTO5进行磁盘到磁带的备份,并相应地进行归档。 大家怎么想? 通过1Gbps网卡进行初始完整备份的更快速的方法是什么? 我的痛点是什么? 有没有更好的方式来做我想要达到的目标?

NTFS压缩与重复数据删除?

我已经在Windows Server 2016上安装了Data Deduplication(数据重复数据消除)angular色。每个Microsoft都使用NTFS压缩来节省空间: 重复数据删除function在更less的物理空间中存储更多的数据 它比通过使用诸如单实例存储(SIS)或NTFS压缩之类的function获得更高的存储效率。 https://technet.microsoft.com/en-us/library/hh831602(v=ws.11).aspx 我是否也应该在卷的属性中启用NTFS压缩(请参见下面的截图)? 会有什么好处吗? 如果已经被检查了呢? 我应该取消选中吗? 检查会有什么负面影响吗?