我有一个CentOS 5.5服务器(HP ProLiant双磁盘RAIDarrays),工作正常,直到上周断电。 (很长的故事,但当时没有正确configurationUPS)。断电后,服务器重新联机并工作了一两天,但在networking浏览中逐渐变慢,然后无法通过SSHlogin。 用户在控制台(服务器距离我现在的位置4000多英里)也无法login。 担心硬件问题,所以我有一些本地的帮助从系统救援光盘启动。
e2fsck需要做一些日志恢复,但其他事情最初检查出来。 没有正确的重启,系统没有任何严重的红旗。 (不幸的是,我在控制台上的那个人并不是很擅长发现什么是exception的,但是没有任何东西可以作为警告或错误出现)。当他试图在控制台上login时,它会尽快得到用户名当他开始input密码的时候,他得到了“type = 1100 audit(1291752714.120:13)”,接着是他所描述的废话(我知道,我可能需要他逐字地给我),最后以“被称为“ext3_abort”和“重新挂载文件系统只读”。
我认为,好吧,也许有一些最初的fsck没有find,所以让我们做坏块扫描。 重新启动救援CD,昨天晚上在所有的分区上做了e2fsck -c,没有报告坏块。 我现在正在运行非破坏性的读写检查,但由于分区大小,我不认为这将是一个非常有效的使用时间。 当我从无法login的硬盘驱动器检查日志时,没有任何关于驱动器问题的信息,这使我感到困惑。
从上周开始之前的日志可以看出,有一些针对服务器的调查,所以我想到了一种妥协。 我是远程执行干净安装的游戏,但是我想我会看看是否有人有任何想法,为什么从硬盘驱动器启动会build议磁盘问题,但从救援CD fscking没有提出任何问题。 任何人以前见过这种行为? 在花费时间重新安装之前,我应该做更多的事情来检查硬件问题。
谢谢。
e2fsck根本不能解决所有的问题。 我有一个Linux虚拟机有一个文件系统错误,它显示一些文件,但不允许我删除它们。 如果我e2fsck驱动器e2fsck进入一个无限循环,永远不会结束。 有时最简单的方法就是复制数据,重新mke2fs,然后重新开始…
运行rpm -Va比较安装的软件包的校验和可能会很有趣。 (从救援盘上,根据需要使用 – 根。)