我提前appoligize不是正确的pipe理员,我只是一个程序员与我安装了Debian Etch加上mysql,php,apache和ISPConfig的服务器。
因此,它有一个超过900天的正常运行时间,没有一个单一的问题(没有重要的负载,只是我们的一些服务),然后它开始performance不好 – 突然它冻结(只有ping工作,没有什么其他),当我尝试通过ISP的界面重新启动,它完全冻结。 然后,我不得不请求支持手动重启。 在那之后,它工作好几天,然后同样的事情再次发生(到目前为止发生了三次)。
现在我执行networking启动并运行fsck(发现1.1%不连续),我希望它会有所帮助
我的问题是有没有人有类似的经验,什么可能导致这样的问题(只有平时工作)?
另外,我查看了系统日志,但没有发现任何可能表明有问题的地方。 还有其他日志我应该看看?
谢谢你的答案!
对不起,我还没有注册,所以我没有select投票。 但是,谢谢!
首先,为了解决这个问题,这是一个封闭的服务器,在ISP的支持下有networking引导/重置/手动重置function。
这可能是一个硬盘问题,因为 – 在fsck之后,一切似乎都能正常工作,直到我深入了解并认识到只有首页才能工作,而另外一些则没有(页面给出'403禁止'错误或只是一个空白页面或者mysql错误…)。
SSH也似乎工作,但它实际上不工作:我可以尝试login,它会拒绝错误的密码,但是当我input正确的 – 连接只是closures。
我会尽量通过networking启动和备份再次访问文件,然后将不得不更换磁盘…
克隆有错误的磁盘是否可能? 无论如何,值得一试?
更新:今天(我问了这个问题后的一天),事实certificate,硬盘是绝对有缺陷的。 再一次感谢您的时间和帮助!
假设这是一个专用的物理服务器:
下一次它冻结,你应该让你的托pipe公司插入一个“崩溃车”,看看屏幕上(控制台),或自己下去。 下次启动时,如果您可以login,请input“dmesg”并查找错误消息; 通过编辑您的问题并粘贴它们或使用pastebin来包含它们。
我以前用数码相机或手机拍下照片,以供以后参考或向某人远程显示。 任何严重的内核消息很可能在屏幕上(这取决于如何configuration日志logging); 没有这些信息,你得到的答案将基本上是疯狂的猜测。
我疯狂的猜测是硬盘故障; 带一张可启动光盘(Ubuntu可能是最简单的),并运行smartctl -A 在此处插入硬盘设备path 。 您将得到一个驱动器健康参数列表,更重要的是,从驱动器的错误日志,如果有的话。
另外: 忽略build议进行操作系统升级的人。 这是非常危险的build议。
更新 :是的,如果您没有好的或最近的备份,可以克隆损坏的驱动器。 看看GNU ddrescue。 不过,这是一个先进的工具。 如果有钱,就把它发回来,或者至less雇用一个有数据恢复经验的系统pipe理员。
这可能是硬件问题。 磁盘或内存错误,过热(堵塞风扇或通风孔),网卡变差。 除非有任何硬件错误,否则首先我会将系统升级到lenny,然后挤压。 这可能会自动修复你的问题。
我也会扫描系统的坏块(这是命令的名称)。 在mkfs.ext3中存在以下选项:
-c This option causes e2fsck to use badblocks(8) program to do a read-only scan of the device in order to find any bad blocks. If any bad blocks are found, they are added to the bad block inode to prevent them from being allocated to a file or directory. If this option is specified twice, then the bad block scan will be done using a non-destructive read-write test.
所以你将能够避免坏块造成的磁盘错误。
还要考虑使用memtest86或memtest86 +来运行内存testing。 如果它发现错误,并且你觉得冒险,你可以使用memtest的输出提供给内核,并映射出任何错误的内存: http : //rick.vanrein.org/linux/badram/
我知道一个事实,它工作得很好。 我曾经有过一个糟糕的暗淡,在内存分配的某个时刻,这可能会导致系统崩溃并烧毁系统。 使用memtestfind坏内存区域后,我使用badram内核参数将其映射出来,问题解决了。