可接受的平均负载

我们周五部署了新的Linux / Exim / Spamassassin邮件服务器(在周末没有pipe理员的情况下总是部署一个好主意)。 平均15分钟的负荷一直在1.3左右。

机器响应迅速,邮件在合理的时间内交付。 我们可以假设这是可以接受的吗?

如何将一定数量的负载视为可接受或不可接受? 什么指标被使用?

基本经验法则:如果系统响应迅速,如果及时工作,那么你就没事了。

低于2的负载不是太担心。 我已经使系统达到了四五个,并且仍然可以正常工作,虽然这可能表明networking或驱动器有很多排队问题(即使系统响应速度很高,I / O问题也会导致高负载)。

定期检查邮件队列的长度,并logging无法投递的问题和这种性质的问题。 如果传递队列保持相对较低的状态就没有问题。

你可以获得磁盘平均数和networkingI / O信息,但如果你没有看到交付问题(我发送信息十五分钟前,它还没有到达!),你可以通过控制台工作系统或SSH)没有很多的延迟,你应该没事的。

负载平均值是一个值,它表示内核所需的处理器数量,以便能够在不需要等待的情况下运行所有​​任务。
在你的情况下,如果你有2个或更多的CPU /核心。 没有问题。 如果你只有1个CPU和1个核心,这意味着你的应用程序想要运行的时间和内核运行的时间之间有太多的时间。 一个负载>“数量的CPU /核心”将不会是一个邮件系统的问题,直到它太长时间价值太高。
当然,他们是没有规则和价值的,当你在短时间内收到你的邮件没问题。 但是当负载高于2 * CPU /内核数量时,您可能需要开始仔细查看您的服务器,在“长时间”(〜1小时)内频繁出现。
再次,对于邮件服务器这不会是一个大问题,但它会开始意味着你的服务器有点超载。

像调整相关的问题一样,没有是/否的答案,这一切都取决于:-)

话虽如此,1.3的负载并不高,特别是如果你有一个多核CPUconfiguration。 如果负载数量与核心数量相同,则所有内核始终有一个准备运行的进程。

最终,如果你说,消息正在及时交付,那么性能是好的:-)

top 

将在接近实时的情况下为您提供基本指标。

一个平均的装载量比CPU的数量要less,这意味着有CPU无所事事。 平等意味着他们现在都在工作。 更大意味着有可能正在运行的进程,但是一直等待。

对于超级时间敏感的东西,比如voip服务器或memcache,你希望你的平均负载低于内核数量。 对于可以偶尔备份的asynchronous内容(比如电子邮件),您可以轻松运行4倍的内核数量。

要记住的最大的问题是,正在等待磁盘或networkingI / O,但在其他方面运行的进程仍然显示在平均负载。 所以,如果你有一个Apache服务器spoonfeeding jpg的56k用户,你可以运行一个更高的平均负载比如果你有反弹的PHP /任何脚本响应代理/负载均衡器在千兆局域网。 在你的情况下,连接到一些慢邮件服务器,永远转移一个附件的smtp连接将显示运行队列中的一个进程,但可能会中断二十次发送一个快速的一行电子邮件没有问题。

推动来推,负载平均就像DOW。 它实际上并不以任何方式衡量“经济”,人们把它作为一个非常松散的相关度量因为它很容易谈论。 关注您实际关心的监控指标,例如每秒交付队列深度和消息。

你有多less个核心? cat / proc / cpuinfo | grep处理器| wc -l

(警告:超线程看起来像更多的核心,但事实并非如此)

如果你的负载水平在你的处理器数量之下,那么你通常就可以。

也看看顶部,点击'1',你可以看到每个CPU的个人负载。

是的,这是相当可以接受的,通常是邮件filter所期望的。

我们的设置有点不同。 我们有一个独立的SpamAssassin服务器,而我们的POP服务器运行ClamAV来扫描病毒。 POP服务器通常在2的服务器负载下运行,但偶尔会高达10或更多。 另一方面,我们的SpamAssassin服务器用来运行2,直到我们还安装了Openprotect.comfilter,当它使CPU的使用量增加了一倍,并且现在运行在大约15以上,尖峰数在15以上。这仍然是可以接受的,因为我们不邮件有任何延迟,导致邮件队列不断增加(我们使用传入SMTP的qmail),而且还有空余的空间来使用CPU /内存。

巧合的是,我强烈build议Munin监视你的服务器。 它在视觉上显示历史数据并向您显示您必须省下的资源方面做得非常出色。 使用Top(1)进行实时监控对您无能为力。 🙂

哦,顺便说一下,在长周末之前的周五进行部署是整个周末工作的方法。 尤其是对于邮件服务器等关键系统。

记忆能力如何? 它是稳定的还是在增长?

负荷似乎并不符合标准。 如果邮件服务器是响应式的,并且邮件正在通过,我会说如果错误的电子邮件正在通过(垃圾邮件),那么除了内存消耗之外,唯一的衡量是失败的。

介意你今天将是你的第一个真正的考验。 我今天可能会稍微监视一下。 如果出现问题,现在就是时候了。