服务器随机冻结几秒钟

我注意到一个奇怪的问题,我的Ubuntu(networking)服务器随机冻结,几秒钟,然后再次恢复。 服务器具有以下规格;

- 2 vCores of 2,4 GHz - 8GB of RAM - 40GB SSD - 100 MBit network 

我主要在服务器上运行以下服务;

 - NGINX (webserver and proxy) - Mysql - Varnish 

这个问题并不是每天都会发生的,但是通常情况下(大约每隔20秒)就会发生一次。 我正在运行Netdata作为Web监控工具,而Newrelic则用于关键问题。

这是从Netdata仪表板获取的CPU图表的屏幕截图 这是从Netdata仪表板获取的CPUgraphics的屏幕截图,因为您可以看到服务器在发生冻结时停止报告统计信息。 我发现IO / Wait有时会在看到服务器冻结之前爆发,但在读取线程和search高IO / Wait之后,除了[jbd2/vda1-8]进程不断地写入磁盘。

当运行像top, ps, iotop and htop这样的监视工具时,即使发生冻结问题,我也没有看到任何使用过量资源的进程。

当使用主机提供商的(OVH's)KVMlogin到服务器时,我看到以下消息; NMI watchdog: BUG: soft lockup CPU#0/1 stuck for 21s! [process] NMI watchdog: BUG: soft lockup CPU#0/1 stuck for 21s! [process] 。 同时研究这个错误信息并没有提供太多的信息或解决scheme。 我目前没有什么可能会导致这些问题的想法,所以任何帮助表示赞赏。

我不能像所有其他人一样写评论,但必须做一个“官方”的答案,尽pipe我所要提供的只是猜测。 :-)既然它是一个虚拟主机,也就是虚拟机(显然是KVM),我可以想象你的主机有一些正在进行的幕后基础设施工作,或者有一些可靠性问题。 这可能意味着你的虚拟机

  • VM由于某种原因从一台物理服务器迁移到另一台(这要求暂时停止vcpus,以便VM状态可以通过networking传输)。 一个迹象表明(以我的经验),系统时钟closures了几秒钟,需要由ntp守护程序纠正。
  • 您的服务器的虚拟磁盘所在的存储在短时间内无法访问(顺便说一下,这很可能不是本地SSD,而是SAN或NFS服务器上的一些磁盘空间)。 所以进程会卡在I / O上,这通常意味着即使CPU利用率很低,系统负载值也会增加。

正如我所说,只是猜测,但也许这是一个想法,与你的主机谈话。

您的VPS可能会限制您的CPU和磁盘使用量,当节stream太严重时会导致明显的冻结。 通过top检查CPU冻结时间(或刚好在/之前)是否高。