linux / centos定期崩溃

对不起,如果我没有在网站上做正确的事情,这是我第一次在这里(以前使用过的计算器)。 我有一台运行Plesk的centos 5.2服务器,技术支持人员拒绝对此进行研究,因为他们一直在说我应该重新启动,但是这不是一个真正的解决scheme,因为它发生了很多(也许每周一次)。

我不得不承认,我并没有深入Linux,但我知道我的方式,这是什么syslem消息说服务器出现故障之前,有人可能证实我怀疑这是缺乏RAM的东西?

Dec 7 20:56:24 ns2435 kernel: [<c10d67f7>] ? handle_mm_fault+0xf7/0x190 Dec 7 20:57:08 ns2435 kernel: [<c10598e4>] ? do_page_fault+0x164/0x3f0 Dec 7 20:57:26 ns2435 kernel: [<c10f2757>] ? filp_close+0x47/0x70 Dec 7 20:57:38 ns2435 kernel: [<c1037df0>] ? do_device_not_available+0x0/0x20 Dec 7 20:57:44 ns2435 xinetd[4186]: START: smtp pid=10839 from=86.11.75.60 Dec 7 20:57:56 ns2435 kernel: [<c1037dc4>] ? math_state_restore+0x24/0x50 Dec 7 21:02:31 ns2435 kernel: [<c1059780>] ? do_page_fault+0x0/0x3f0 Dec 7 21:02:41 ns2435 kernel: [<c19b42ba>] ? error_code+0x5a/0x60 Dec 7 21:02:42 ns2435 kernel: [<c1059780>] ? do_page_fault+0x0/0x3f0 Dec 7 21:02:45 ns2435 kernel: Mem-Info: Dec 7 21:02:45 ns2435 kernel: DMA per-cpu: Dec 7 21:02:45 ns2435 kernel: CPU 0: hi: 0, btch: 1 usd: 0 Dec 7 21:02:49 ns2435 kernel: CPU 1: hi: 0, btch: 1 usd: 0 Dec 7 21:02:59 ns2435 kernel: Normal per-cpu: Dec 7 21:03:08 ns2435 kernel: CPU 0: hi: 186, btch: 31 usd: 102 Dec 7 21:03:10 ns2435 kernel: CPU 1: hi: 186, btch: 31 usd: 84 Dec 7 21:02:58 ns2435 xinetd[4186]: START: smtp pid=10862 from=66.220.144.146 Dec 7 21:27:21 ns2435 kernel: active_anon:55616 inactive_anon:55680 isolated_anon:192 Dec 7 21:27:26 ns2435 xinetd[4186]: START: smtps pid=10924 from=86.11.75.60 Dec 7 21:27:29 ns2435 kernel: active_file:216 inactive_file:399 isolated_file:0 Dec 7 21:27:31 ns2435 xinetd[10862]: warning: can't get client address: Connection reset by peer Dec 7 21:27:32 ns2435 xinetd[4186]: START: submission pid=10928 from=86.11.75.60 Dec 7 21:27:32 ns2435 kernel: unevictable:0 dirty:0 writeback:155 unstable:0 Dec 7 21:27:35 ns2435 xinetd[4186]: START: smtp pid=10931 from=86.11.75.60 Dec 7 21:27:35 ns2435 kernel: free:1349 slab_reclaimable:965 slab_unreclaimable:4086 Dec 7 21:27:38 ns2435 xinetd[4186]: START: smtps pid=10932 from=86.11.75.60 Dec 7 21:27:38 ns2435 kernel: mapped:221 shmem:25 pagetables:2663 bounce:0 Dec 7 21:27:40 ns2435 kernel: DMA free:2052kB min:88kB low:108kB high:132kB active_anon:6076kB inactive_anon:6308kB active_file:20kB inactive_file:252kB un$ Dec 7 21:27:43 ns2435 kernel: lowmem_reserve[]: 0 484 484 484 Dec 7 21:27:43 ns2435 kernel: Normal free:3344kB min:2768kB low:3460kB high:4152kB active_anon:216388kB inactive_anon:216412kB active_file:844kB inactive_f$ Dec 7 21:27:40 ns2435 xinetd[4186]: START: submission pid=10933 from=86.11.75.60 Dec 7 21:27:56 ns2435 kernel: lowmem_reserve[]: 0 0 0 0 

如果可能的话,你应该尝试更新到CentOS 5.7,但是这里有一些帮助你诊断问题的指针:

查看内存使用情况,查看有多less内存可用,以及caching和caching使用了多less内存(为了简单起见,可以将其视为“未使用”)。

你可以尝试使用像cacti这样的东西来监控你的内存使用情况。 那么当你的系统再次崩溃的时候,你可以看到崩溃之前的情况。

如果可用内存不足,这可能是导致崩溃的原因。 如果情况并非如此,则可能是内存不佳或其他硬件问题。

尝试安装memtest86并运行。

您需要发出以下命令来分析12月07日发生的事情

 sar -f /var/logs/sa/sa07 

将于07年12月为您提供关于CPU使用情况的全天候报告

 sar -n -f /var/logs/sa/sa07 

将于07年12月为您提供关于networking使用的全天候报告的信息

 sar -r -f /var/logs/sa/sa07 

将于07年12月为您提供关于内存使用情况的全天候报告

如果你喜欢在每个月的某个日子,比如十七点一天的月份,你需要发出以下命令:

 sar --f /var/logs/sa/sa17 sar -n -f /var/logs/sa/sa17 sar -b -f /var/logs/sa/sa17 sar -r -f /var/logs/sa/sa17 

这个内核日志似乎指向内存耗尽。 如果服务器没有Pleskbuild议的操作build议的RAM数量,那么您可能会遇到与系统其余部分有关的ram争用问题。 如果服务器运行多个逻辑服务,这可能会加剧。

不排除硬件故障。 使机器脱机几个小时,然后运行Memtest86。 当我运行一个特定的应用程序时,我曾经有一台机器出现了一致的故障,而不是失败,但它只是一个应用程序。 一时兴起,我决定运行Memtest86,在几秒钟之内,我有成千上万的错误。 拉扯了这个令人讨厌的记忆,从此我从来没有遇到过问题。

还要注意发生故障的时间。 例如,重启后多长时间才会发生,系统处于重负载状态? 什么是你的服务器在哪里的热特性?

升级内核之前不要硬件故障。 更有可能是已知的MM和内核版本比你的内存芯片/宇宙射线。

谷歌“handle_mm_fault”和你的内核版本。

阅读内存处理 – 免费的输出是误导,如果你不明白,Linux倾向于使用所有的内存。

谷歌“linux吃了我的内存”