我负责的一个开发服务器(ext3在Debian Squeeze 5 raid上)在周末结束了,我不得不重置它,如从KVM /物理键盘访问没有响应,没有eth设备响应等。运行备份过程(图中,有一次我不检查确认)
所以在复位之后,事实certificate,应该在〜24H时间内发生的磁盘IO活动的每一个轨迹都完全消失了。 日志文件在date和时间上有很大的差距。 就好像写入从未提交到磁盘一样,没有进程似乎已经运行。
幸运的是,这是一个周末,没有任何价值可能会丢失,我不怀疑是黑客。
我可以做什么事后validation这个事件 – 以防止它再次发生? 我在一台运行FreeBSD的完全不同的机器上看到过这种情况。
我现在正在收集磁盘检查工具 – 但是一定还有更多的工作要做!
/dev/sda1 on / type ext3 (rw,errors=remount-ro) Linux dev 2.6.32-5-686-bigmem 13%/3% 听起来很熟悉。 你有一个英特尔CPU? 如果是这样,那么BIOS中的绿色模式设置是什么? 你的BIOS是最新的吗?
你的Debian在启动过程中应用了什么英特尔微代码补丁?
我有类似的情况下,R310冻结(周末没有发生的时间)。 这是由英特尔微码更新(在我的情况下,CentOS 5)修复。
戴尔build议BIOS升级,然后应用相同的微码更新。
在其他情况下,我已经看到了英特尔-C睡眠状态。
如果你没有从内核发送的OOPS消息,为什么它被locking,那么你将不能进一步排除故障。 你可能可以设置kdump来保存一些debugging输出,如果它再次发生,你可以运行memtest86或其他硬件诊断,但没有进一步的信息,你不能前进。