我有一个Debian主机
$ uname -a
Linux voip 2.6.25-2-amd64#1 SMP Mon Jul 14 11:05:23 UTC 2008 x86_64 GNU / Linux
老星号
星号1:1.4.21.2〜dfsg-3
它已经工作了很长一段时间
$正常运行时间
13:50:37最多1047天,21:02 7个用户,平均负载:0.17,0.19,2.81
今天主机冻结了,ping被回答了,但是我不能ssh,没有dhcp或者任何其他的服务。
我从控制台login后,看着顶部 – 我看到星号正在使用100%的CPU。 killall星号不起作用,我只好求助于killall -9。 我重新启动服务后,一切似乎都很好。
我检查了我的日志,注意到这一点:
> Mar 12 13:18:06 voip kernel: [96834831.947297] asterisk D > ffff81000100a080 0 15757 1 Mar 12 13:18:06 > voip kernel: [96834831.947304] ffff8100390fdda8 0000000000000086 > ffff810039561c00 ffff810024af33d8 > Mar 12 13:18:06 voip kernel: [96834831.947310] ffff81002dda8080 > ffff810039cb2d40 ffff81002dda82f0 0000000000000001 > Mar 12 13:18:06 voip kernel: [96834831.947317] 0000000000000296 > 0000000000000003 ffff8100390fdda8 ffffffff8022bea4 > Mar 12 13:18:06 voip kernel: [96834831.947322] Call Trace: > Mar 12 13:18:06 voip kernel: [96834831.947345] [<ffffffff8022bea4>] > __wake_up+0x38/0x4e Mar 12 13:18:06 voip kernel: [96834831.947364] [<ffffffff881145b4>] > :jbd:log_wait_commit+0x9f/0xed Mar 12 13:18:06 voip > kernel: [96834831.947373] [<ffffffff80246a54>] > autoremove_wake_function+0x0/0x2e Mar 12 13:18:06 voip > kernel: [96834831.947389] [<ffffffff881104f7>] > :jbd:journal_stop+0x165/0x18d Mar 12 13:18:06 voip > kernel: [96834831.947400] [<ffffffff802b4c6d>] > __writeback_single_inode+0x17f/0x29d Mar 12 13:18:06 voip kernel: [96834831.947407] [<ffffffff80246a54>] > autoremove_wake_function+0x0/0x2e Mar 12 13:18:06 voip > kernel: [96834831.947419] [<ffffffff802b558b>] sync_inode+0x24/0x31 > Mar 12 13:18:06 voip kernel: [96834831.947440] [<ffffffff881213ce>] > :ext3:ext3_sync_file+0x8a/0x9c Mar 12 13:18:06 voip > kernel: [96834831.947449] [<ffffffff802b79c2>] do_fsync+0x52/0xa4 > Mar 12 13:18:06 voip kernel: [96834831.947456] [<ffffffff802b7a37>] > __do_fsync+0x23/0x36 Mar 12 13:18:06 voip kernel: [96834831.947463] [<ffffffff8020bd9a>] > system_call_after_swapgs+0x8a/0x8f
我discomobulated,这是一个星号的错误? 或者是其他东西? 为什么在日志中看到do_fsync和sync_inode? 感觉这是一个文件系统或硬盘的问题? (我用lvm + ext3)
任何人都可以指向正确的方向吗?
如果连续三年工作顺利,突然开始抛出与文件系统有关的内核错误,我会说你的硬件正在开始融化。 立即确保您有可用的备份,并立即用新的replace服务器。
或者,至less要更换硬盘驱动器,即使看起来像HD问题的问题有时可能是由于RAM / CPU不良或过热造成的。
我想你可能有硬件问题。 尝试运行fsck来修复你的文件系统。