NGINX:磁盘写入尖峰和/或没有足够的工作人员错误突然激增的stream量导致500错误

我一直在尝试诊断我们在生产服务器上遇到的问题。 我们有一台运行NGINX的服务器作为负载均衡器,负责在四台应用服务器之间拆分请求。 在testing网站的时候,我们每天至less会有几次错误,但是我们得到的错误只能持续几秒钟。

通过错误日志和访问日志,以及新的遗物和我们的托pipe服务的graphics,我已经注意到了一些事情…

每天几次,负载平衡器上的磁盘突然大量跳跃。 我很确定这是由于很短的时间内写入访问日志的请求太多了(昨天已经超过了300MB,其中大部分是在很短的时间内)……几乎如果一堆请求被阻塞,堆积,然后同时吐出。

另外,偶尔我会在错误日志中得到“768工作者连接是不够的…”。 我猜我只需要提高这个限制,但我不知道多less,或者我怎么能find最大的工作。

我不确定这两个问题是否连接在一起,或者如果其中一个导致我们的随机500错误。

任何有关进一步诊断的见解或build议将不胜感激!