我的实验室正在build立一个小型服务器,用于保存我们小组正在处理的项目的数据(主要是video和图像数据,以及一些文档)。 从历史上看,在一个研究项目结束后,这些数据会随意地存储在一个硬盘或一大堆DVD(或者以前的CD)中,或者一些video最终以索尼DV盒式录像机VHS录像带(这个实验室自90年代初以来一直是活跃的),或者是以上所有的混合物…
问题:(1)将它们合并成相同的格式和存储介质的最好方法是什么?(2)对于非常偶然的访问(比如30多年?),长期存档这些数据的最佳媒介是什么? 不幸的是我们没有企业级的预算(我们只是一个10人左右的实验室),所以不能做成本高达数十万美元的事情。
谢谢!
PS考虑到我们以前的video和图像的分辨率较小,但最近的数据量非常大,我想我们正在谈论真正的旧数据30〜40TB,最近的数据又是10〜20TB,然后每年增加大约5TB 。
不幸的是,没有最好的办法给你。 30年的数字媒体档案是一个非常棘手的问题,需要日常投资。 关于保证在30年内可读的唯一格式是ASCII和UTF8,这不是video格式。 存储格式的变化,即使数据仍在录像带上,我们30年前使用的8轨道卷对卷磁带几乎不可能读取(有一个关于NASA重build40岁磁带机的有趣故事以获得一些新的恢复/发现阿波罗数据磁带)。 你最好的select是定期的,我会说每5年,对你的档案环境的评估有足够的预算,把旧格式带入新的格式。
你可能比我更了解,但video格局正在迅速改变。 现在可以实时在线编辑,即使在10年前,它也只能在严重的工具包上执行。 谁知道30年后的情况呢?
这应该让你30年。
我完全同意sysadmin1138的post在每一个方面一个警告 – 我不认为你会有预算真正实现你想要的。
有5个主要function需要创build;
所以你想做的事情可以做,在过去的二十多年里,我自己做过很多次,但是恐怕没有那么便宜。
祝你好运。
其他人就如何支持媒体提出了很好的build议。 我build议你花一些时间看一下国会指南的图书馆:
http://www.digitalpreservation.gov/formats/index.shtml
你也可以考虑构build一个便宜的白盒ZFSarrays。 你可能可以做一些事情,以适应你的需求低于10K美元。 随着驱动器死亡,将其replace为更大的驱动器,因此在生成数据时存储容量也会增加。 这可能会让你持续很长一段时间,而且,当它变老时,可以用更高容量的设备replace它。 优点是你的数据是在线的(所以可以根据需要进行访问),并且相对较好的保护,防止数据太多,这是一个严重的问题。
这里有一个体面的构build选项:
对于技术人员来说这很难,我会build议立即停止关于磁盘和技术的想法。 把你的业务问题分解成你必须做的决定。
例:
请注意,如果您以有损格式存储数据,然后转换为另一种有损格式,然后再转换为另一种格式,则每次转换时video质量都会降低。
以下是关于audio的讨论,但同样适用:
您可以将任何audio格式转换为Ogg Vorbis。 但是,从MP3这样的有损格式转换到另一种有损格式,比如Vorbis,通常是一个坏主意。 MP3和Vorbis编码器通过丢弃您可能听不到的部分audio波形来实现高压缩比。 但是,MP3和Vorbis编解码器是非常不同的,所以他们每个都会丢弃audio的不同部分,虽然肯定有一些重叠。 将MP3转换为Vorbis包括将MP3文件解码为未压缩格式(如WAV),然后使用Ogg Vorbis编码器重新压缩。 解码后的MP3将丢失MP3编码器select丢弃的原始audio部分。 Ogg Vorbis编码器在压缩数据时将丢弃其他audio组件。 最好的结果将是一个Ogg文件,这听起来与原来的MP3相同,但最终产生的文件听起来可能会比原来的MP3更糟糕。 在任何情况下,你会得到一个比原来的MP3更好的文件。
由于许多音乐播放器可以同时播放MP3和Ogg文件,因此您不必将所有文件切换为一种格式或另一种格式。 如果您喜欢Ogg Vorbis,那么当您从原始无损audio源(如CD)编码时,我们鼓励您使用它。 从原始编码时,您会发现可以制作比您的MP3更小或更好质量(或两者)的Ogg文件。
(如果你必须绝对必须从MP3转换到Ogg,那么在Freshmeat上有几个转换脚本。)
http://www.vorbis.com/faq/#transcode
所以最好select一种无损格式,因为一旦你select了一种有损格式,你就会陷入困境。
也许我错过了一些东西,难道你不能使用编解码器的源代码可用的开放格式来编码所有的东西,然后把它全部放在Amazon S3上?
这样,亚马逊不得不担心数据的实际存储,除非在30年的时间内没有可以编译C / C ++的计算机,否则你将能够获得这些信息。