在Linode VPS里运行Courier IMAP的奇怪的负载问题

所以…我在电子邮件服务器上看到一些非常奇怪的加载问题。上午8点到9点（巧合的是，当人们开始工作），但大约上午11点左右下降。 CPU使用率保持正常，我有大量的可用内存，不交换。昨天我们有一个非常高的爱荷华州（49.75），有一个非常高的负荷（40），今天我们只有“11-12负荷爱荷华州在3-4之间。

所有的迹象都指出imapd是罪魁祸首（courier-imap），因为当我停下来的时候，负载突然开始下降，在2-3分钟内恢复正常。我确实有大约40-60人在跑步。我们使用thunderbird，每个打开5个连接，在大多数工作站上我把它降低到1，这有点帮助（负载下降到5-7），然后…整个服务器在上午11点左右恢复正常。

我仍然有〜30个imapds运行，但与完全正常的负载（0.2和0.4之间）。所以…我不太明白为什么会这样，因为从逻辑上讲，如果这是问题的原因，它应该更高。

这是一个Linode 1080 VPS和1gig ram。

（chkrootkit / rkhunter显示没有什么不寻常的。）

如果您使用VPS，则与其他用户共享IO带宽，CPU时间和内存带宽，这些用户对VPS不可见。

我有信心说在物理机器上托pipe的另一个domU正在消耗大量的这些资源中的一个或多个（很可能是IO）。

如果你使用iostat -x你可能会发现你的服务时间非常波动，这就解释了为什么你的负载平均值是尖峰的，这是由于磁盘IO上的进程被阻塞了。

据我了解，加载* nix系统意味着“等待运行的进程数量”。这并不一定意味着他们正在等待CPU。他们可能正在等待磁盘访问，或者networking连接完成。

例如，我曾经pipe理一个负载开始超过80的系统，偶尔会使系统爬行。结果是因为外部LDAP服务器发生了故障，而本地系统正在为客户端进行身份validation请求。

如果你的CPU和iowait看起来不错，我会寻找你的应用程序可能导致exception高负载读数的罪魁祸首的networking依赖性。

就像第一张海报，这可能是IO。我实际上在我的vserver上有相同的设置，经常看到相同的问题。问题是像vserver这样的虚拟服务器的当前容器方法不能有效地分离IO。如果您有兴趣，请参阅第13页的白皮书。 http://www.cs.princeton.edu/~mef/research/vserver/paper.pdf