CentOS 6.3的任务被阻塞超过120秒

最近一直在得到关于我们的邮件系统不可用的Zabbix警报,机器的正常运行时间为30天以上。 我一直在追踪Zabbix日志,看起来像Zabbix代理和服务器之间的通信没有及时响应,触发警报。

要知道这是否是networking问题等。我查看了/ var / log / messages并find以下条目:

Nov 14 21:48:49 iw kernel: INFO: task zabbix_agentd:3316 blocked for more than 120 seconds. Nov 14 21:48:49 iw kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message. Nov 14 21:48:49 iw kernel: zabbix_agentd D 0000000000000003 0 3316 3311 0x00000080 Nov 14 21:48:49 iw kernel: ffff880069075c50 0000000000000086 ffffffff817a8d69 ffff880069075c68 Nov 14 21:48:49 iw kernel: ffff880486ea3000 ffff880069075c58 ffffffff8127cb66 0000000000000009 Nov 14 21:48:49 iw kernel: ffff88042085bab8 ffff880069075fd8 000000000000fb88 ffff88042085bab8 Nov 14 21:48:49 iw kernel: Call Trace: Nov 14 21:48:49 iw kernel: [<ffffffff8127cb66>] ? vsnprintf+0x2b6/0x5f0 Nov 14 21:48:49 iw kernel: [<ffffffff814ffec5>] rwsem_down_failed_common+0x95/0x1d0 Nov 14 21:48:49 iw kernel: [<ffffffff81500056>] rwsem_down_read_failed+0x26/0x30 Nov 14 21:48:49 iw kernel: [<ffffffff8127e664>] call_rwsem_down_read_failed+0x14/0x30 Nov 14 21:48:49 iw kernel: [<ffffffff814ff554>] ? down_read+0x24/0x30 Nov 14 21:48:49 iw kernel: [<ffffffff81140511>] __access_remote_vm+0x41/0x1f0 Nov 14 21:48:49 iw kernel: [<ffffffff81144052>] ? vma_merge+0x1d2/0x3e0 Nov 14 21:48:49 iw kernel: [<ffffffff8114071b>] access_process_vm+0x5b/0x80 Nov 14 21:48:49 iw kernel: [<ffffffff811e295d>] proc_pid_cmdline+0x6d/0x120 Nov 14 21:48:49 iw kernel: [<ffffffff8115c30a>] ? alloc_pages_current+0xaa/0x110 Nov 14 21:48:49 iw kernel: [<ffffffff811e357d>] proc_info_read+0xad/0xf0 Nov 14 21:48:49 iw kernel: [<ffffffff8117b9e5>] vfs_read+0xb5/0x1a0 Nov 14 21:48:49 iw kernel: [<ffffffff810d6b12>] ? audit_syscall_entry+0x272/0x2a0 Nov 14 21:48:49 iw kernel: [<ffffffff8117bb21>] sys_read+0x51/0x90 Nov 14 21:48:49 iw kernel: [<ffffffff8100b0f2>] system_call_fastpath+0x16/0x1b 

内核信息:

Linux邮件2.6.32-279.2.1.el6.x86_64#1 SMP Fri Jul 20 01:55:29 UTC 2012 x86_64 x86_64 x86_64 GNU / Linux

记忆信息:

  total used free shared buffers cached Mem: 24031 21497 2533 0 606 14562 -/+ buffers/cache: 6328 17702 Swap: 31999 49 31950 

我正在寻找一些指导,从哪里开始缩小这些问题的根源。

发现这个post,不知道它是否适用于你。 http://blog.ronnyegner-consulting.de/2011/10/13/info-task-blocked-for-more-than-120-seconds/

你有多lessCPU? 看起来你有相当多的内存(24GB)。 如果博客文章是正确的,那么你的系统可能无法从caching中快速地转储内存来处理你要来的IO。

您可以在/etc/sysctl.conf中设置“vm.dirty_ratio = 10”来强制刷新,这可能会帮助您解决问题。