linux / centos定期崩溃

对不起，如果我没有在网站上做正确的事情，这是我第一次在这里（以前使用过的计算器）。我有一台运行Plesk的centos 5.2服务器，技术支持人员拒绝对此进行研究，因为他们一直在说我应该重新启动，但是这不是一个真正的解决scheme，因为它发生了很多（也许每周一次）。

我不得不承认，我并没有深入Linux，但我知道我的方式，这是什么syslem消息说服务器出现故障之前，有人可能证实我怀疑这是缺乏RAM的东西？

Dec 7 20:56:24 ns2435 kernel: [<c10d67f7>] ? handle_mm_fault+0xf7/0x190 Dec 7 20:57:08 ns2435 kernel: [<c10598e4>] ? do_page_fault+0x164/0x3f0 Dec 7 20:57:26 ns2435 kernel: [<c10f2757>] ? filp_close+0x47/0x70 Dec 7 20:57:38 ns2435 kernel: [<c1037df0>] ? do_device_not_available+0x0/0x20 Dec 7 20:57:44 ns2435 xinetd[4186]: START: smtp pid=10839 from=86.11.75.60 Dec 7 20:57:56 ns2435 kernel: [<c1037dc4>] ? math_state_restore+0x24/0x50 Dec 7 21:02:31 ns2435 kernel: [<c1059780>] ? do_page_fault+0x0/0x3f0 Dec 7 21:02:41 ns2435 kernel: [<c19b42ba>] ? error_code+0x5a/0x60 Dec 7 21:02:42 ns2435 kernel: [<c1059780>] ? do_page_fault+0x0/0x3f0 Dec 7 21:02:45 ns2435 kernel: Mem-Info: Dec 7 21:02:45 ns2435 kernel: DMA per-cpu: Dec 7 21:02:45 ns2435 kernel: CPU 0: hi: 0, btch: 1 usd: 0 Dec 7 21:02:49 ns2435 kernel: CPU 1: hi: 0, btch: 1 usd: 0 Dec 7 21:02:59 ns2435 kernel: Normal per-cpu: Dec 7 21:03:08 ns2435 kernel: CPU 0: hi: 186, btch: 31 usd: 102 Dec 7 21:03:10 ns2435 kernel: CPU 1: hi: 186, btch: 31 usd: 84 Dec 7 21:02:58 ns2435 xinetd[4186]: START: smtp pid=10862 from=66.220.144.146 Dec 7 21:27:21 ns2435 kernel: active_anon:55616 inactive_anon:55680 isolated_anon:192 Dec 7 21:27:26 ns2435 xinetd[4186]: START: smtps pid=10924 from=86.11.75.60 Dec 7 21:27:29 ns2435 kernel: active_file:216 inactive_file:399 isolated_file:0 Dec 7 21:27:31 ns2435 xinetd[10862]: warning: can't get client address: Connection reset by peer Dec 7 21:27:32 ns2435 xinetd[4186]: START: submission pid=10928 from=86.11.75.60 Dec 7 21:27:32 ns2435 kernel: unevictable:0 dirty:0 writeback:155 unstable:0 Dec 7 21:27:35 ns2435 xinetd[4186]: START: smtp pid=10931 from=86.11.75.60 Dec 7 21:27:35 ns2435 kernel: free:1349 slab_reclaimable:965 slab_unreclaimable:4086 Dec 7 21:27:38 ns2435 xinetd[4186]: START: smtps pid=10932 from=86.11.75.60 Dec 7 21:27:38 ns2435 kernel: mapped:221 shmem:25 pagetables:2663 bounce:0 Dec 7 21:27:40 ns2435 kernel: DMA free:2052kB min:88kB low:108kB high:132kB active_anon:6076kB inactive_anon:6308kB active_file:20kB inactive_file:252kB un$ Dec 7 21:27:43 ns2435 kernel: lowmem_reserve[]: 0 484 484 484 Dec 7 21:27:43 ns2435 kernel: Normal free:3344kB min:2768kB low:3460kB high:4152kB active_anon:216388kB inactive_anon:216412kB active_file:844kB inactive_f$ Dec 7 21:27:40 ns2435 xinetd[4186]: START: submission pid=10933 from=86.11.75.60 Dec 7 21:27:56 ns2435 kernel: lowmem_reserve[]: 0 0 0 0

如果可能的话，你应该尝试更新到CentOS 5.7，但是这里有一些帮助你诊断问题的指针：

查看内存使用情况，查看有多less内存可用，以及caching和caching使用了多less内存（为了简单起见，可以将其视为“未使用”）。

你可以尝试使用像cacti这样的东西来监控你的内存使用情况。那么当你的系统再次崩溃的时候，你可以看到崩溃之前的情况。

如果可用内存不足，这可能是导致崩溃的原因。如果情况并非如此，则可能是内存不佳或其他硬件问题。

尝试安装memtest86并运行。

您需要发出以下命令来分析12月07日发生的事情

 sar -f /var/logs/sa/sa07

将于07年12月为您提供关于CPU使用情况的全天候报告

 sar -n -f /var/logs/sa/sa07

将于07年12月为您提供关于networking使用的全天候报告的信息

 sar -r -f /var/logs/sa/sa07

将于07年12月为您提供关于内存使用情况的全天候报告

如果你喜欢在每个月的某个日子，比如十七点一天的月份，你需要发出以下命令：

 sar --f /var/logs/sa/sa17 sar -n -f /var/logs/sa/sa17 sar -b -f /var/logs/sa/sa17 sar -r -f /var/logs/sa/sa17

这个内核日志似乎指向内存耗尽。如果服务器没有Pleskbuild议的操作build议的RAM数量，那么您可能会遇到与系统其余部分有关的ram争用问题。如果服务器运行多个逻辑服务，这可能会加剧。

不排除硬件故障。使机器脱机几个小时，然后运行Memtest86。当我运行一个特定的应用程序时，我曾经有一台机器出现了一致的故障，而不是失败，但它只是一个应用程序。一时兴起，我决定运行Memtest86，在几秒钟之内，我有成千上万的错误。拉扯了这个令人讨厌的记忆，从此我从来没有遇到过问题。

还要注意发生故障的时间。例如，重启后多长时间才会发生，系统处于重负载状态？什么是你的服务器在哪里的热特性？

升级内核之前不要硬件故障。更有可能是已知的MM和内核版本比你的内存芯片/宇宙射线。

谷歌“handle_mm_fault”和你的内核版本。

阅读内存处理 – 免费的输出是误导，如果你不明白，Linux倾向于使用所有的内存。

谷歌“linux吃了我的内存”