从服务器提取数据，而不会导致磁盘IO过高

我目前的诊断是存在硬件故障，或者与硬件RAID控制器的内存有关，或者与硬盘驱动器在完全运行时需要多余的汁液有关。

试图更换PSU，没有骰子。试过现场启动另一个操作系统，没有骰子。无论操作系统如何，高磁盘IO都能确保硬关机。我已经确定一个新的服务器是绝对需要的。

但是，现在我面临着对驱动器内容进行备份的挑战，而不会导致高IO。我已经configuration了IOPS限制的cgroups，我曾经玩过，看看它有多高，而不会导致关机。结果似乎从每个磁盘有所不同，但平均约100个似乎在崩溃之前工作了一段时间。但考虑到大约有120GB的数据，这并不是真的可行。顺便说一下，这些是SAS 15K驱动器。

限制IO看起来是有效的，但是这是一个累赘的过程，因为当服务器closures时我必须重新设置它。我使用Runtime Live CD（Knoppix fork）将数据从驱动器复制到外部驱动器。

服务器大约7岁，我没有碰到驱动器的额外连接器。

面对这样的情况，从驱动器获取数据的可靠方法是什么？

仅供参考，这是帮助我设置限制IO的cgroup的链接： http : //fritshoogland.wordpress.com/2012/12/15/throttling-io-with-linux/

虽然是几年前，我也曾经见过类似的东西。

在我的情况下，这是问题的记忆和复制数据时，有一些forms的caching进行，我怀疑是慢慢地使用内存，直到它到了问题的记忆和…繁荣！电脑坠毁。一个内存testing应该很容易地识别这个，或者删除一些内存来查看它是否解决或者恶化问题？

如果不是这样，那么我怀疑它的数据吞吐量是相关的，吞吐量只是拖延了问题，而隐藏了实际的原因。

这可能是值得检查的CPU临时工，以防万一数据副本导致足够的CPU工作，以提高到崩溃点？即风扇故障或散热片滑落？减慢数据复制速度只是减轻了足够的负担来延缓温度上升。

最后，你不说你的磁盘是如何configuration的？即RAID或JBOD？你能够将驱动器单独移动到另一台服务器，还是作为一个组？显然不要只是移动它们，如果他们是RAID驱动器，除非作为最后的，最后的手段！除非你知道你在做什么，当然！

HTH