在Linux上高效地存储重复的文件

我托pipe了很多网站,我们的系统可以很容易地复制这些站点中的项目,这很方便,但会导致大量重复的(可能相当大的)文件。 我想知道,如果这些是Linux(尤其是Ubuntu)中的任何机制,其中文件系统将只存储一次文件,但链接到它的所有位置。

我需要这是透明的,也处理如果用户更改其中一个文件的情况下,它不会改变主文件的内容,但创build一个新的文件只是这个特定的文件实例。

练习的重点是减less重复文件使用的空间。

我需要这是透明的

ZFS-on-Linux ×function称为“在线重复数据删除”。

UPD。 :我再次重读您的问题,现在看起来Aufs可以为您提供帮助。 这是非常受欢迎的托pipe环境解决scheme。 实际上,我现在也可以自己提到Btrfs – 模式是你有一些模板子卷,每当你需要另一个实例时,你快照。 这是COW,所以只有更改的文件块需要更多的空间。 但请记住,Btrfs是,呃…好吧,反正也不太稳定。 只有在数据完全可以被删除的情况下,我才会在生产中使用它。

有一个Linux用户空间/熔丝文件系统,将执行此重复数据删除。

http://sourceforge.net/p/lessfs/wiki/Home/

Linux Journal在2011年8月发行了一篇很好的文章。 btrfs和zfs也有各种特定的文件系统选项。