呃…鬼在我的服务器里

你好,来自希腊的每一个身体和问候

我有一个相当不寻常的情况,我正在用尽想法。 我有这个旧服务器(IBM x205 – P4 2.4Ghz,3xSCSI 36GB),大约一年前,我决定使用它作为一个额外的域控制器和传真和文件服务器。 为了这个任务,我有一个Delock 70154 SATA卡以及2×320 SATA II硬盘

一切都很顺利,直到3个星期前。 我在旅途中,当我回到服务器被发现冻结时,我被告知。 那么,我认为这是一个小故障,因为简单的断电/通电固定了一切。 再次,两个星期前另一个冻结的情况。 它有可疑,但在断电/通电后,一切都在运行。

它再次冻结,当我启动它时,有一个消息说,由于NTDS腐败,域服务无法启动。 以安全模式启动显示SATA Raid(降级)存在问题。

经过大量search,我退化了服务器,清理了活动目录,把两个硬盘都拿出来了(其中一个真的是坏了),恢复了我的文件(我在Delock处理硬盘时遇到了一些问题)。

现在我的服务器是简单的只有工厂安装。 这是乐趣开始的地方。 每天到办公室时,我发现这台机器已经死了,我的意思是完全死了。 只是一个黑色的屏幕,没有别的。 CPU风扇正在工作,电源模块正在工作。 键盘和鼠标死了(他们也locking我的KVM),就像networking一样。 机器是死的。

我强行将其closures,然后启动它。 8个小时我在办公室工作,无论是怠速运行或运行某种诊断。 当我离开办公室时,经过一段时间(也许在30分钟之后,也许在4个小时以后)机器死亡。 这是事件日志显示的信息

"the previous shutdown at xx:xx:xx was unexpected" 

我已经尝试了以下内容:Memtest:什么都没有显示Passmark烧在testing:什么都没有显示事件日志的仔细的研究:没什么感兴趣,我可以看设置选项不崩溃后自动启动,以便我能看到BSODs:什么都没有看电源scheme设置为永不睡眠。

我知道还有很多其他的工具对OCCT这样的机器造成了很大的压力,但是机器已经老了。 今天我会试一试。 一个想法是重新格式化它,但我真的很想find是什么原因造成的,因为我可能会遇到一切正在工作一段时间,然后kaboom的情况,有一天它会死亡。 我真的需要帮助,每个意见/想法都是受欢迎的。 我知道明显的解决办法是永远不要离开办公室,但我有一个生命。 抱歉服务器。 🙂

PS这台机器死亡的情况已经持续了大约一个星期。 每天我会设置RAID重build或复制/恢复文件,而everythig工作

听起来像一个非常古老的服务器。 也听起来它正在死于一个缓慢而痛苦的死亡。 大多数IT部门在一段时间之后更换硬件是有原因的。 原因是因为支持旧硬件花费太多钱。 我敢打赌,你有6-8岁的服务器。 摆脱它。 这将是比它的价值更麻烦。 你可能有一个糟糕的主板或坏处理器。 你可能无法find任何一个新的,所以你将不得不买二手零件。 对于使用的部件,您不知道是否将新问题引入服务器。 就像我说的那样,只是摆脱它。 你不得不付出努力/时间/金钱。

那么我find了鬼…..花了一些时间,但最终我得到了它。 问题是由于泄漏的电容器…他们中的一个决定,现在是时候停止浪费我的时间,并将其stream出来…所以希望它的时间新的东西…. 🙂

如果超过3年左右,请将其丢弃 – 如果不是,请使用保修并进行修理。

硬件故障排除是针对硬件改装爱好者的 – 在这个层面上没有有效的商业案例。 即使最简单的IT服务也应该由可靠的硬件驱动,否则服务将不可靠。

单单一个更现代的x86服务器的功耗下降就会使得购买一台新的低端服务器成为有效的数据(除非你的function是免费的)。

我将尝试远程执行一些cpu和mem使用情况统计。 我是那种给旧硬件另一个机会的人。

所以,做一些统计,也许你的处理器过热。 清洁散热器,更换导热膏并查看。

HTH

正如我在一个评论中所表示的,我同意解决这个问题很有意思,避免不必要的垃圾,并为将来学习新的教训。

像这样的老服务器仍然可以很好地服务于不那么重要的任务,就像你在做AD域控制器一样,也许使用它作为文件服务器有点极端。

使用OpenSUSE安装光盘来使用磁盘和内存testing非常方便。 testing硬件的错误是非常重要的。

然后我真的考虑清洁RAM的接触(我通常使用一种便宜一些的橡胶)。