服务器随机冻结几秒钟

我注意到一个奇怪的问题，我的Ubuntu（networking）服务器随机冻结，几秒钟，然后再次恢复。服务器具有以下规格;

- 2 vCores of 2,4 GHz - 8GB of RAM - 40GB SSD - 100 MBit network

我主要在服务器上运行以下服务;

 - NGINX (webserver and proxy) - Mysql - Varnish

这个问题并不是每天都会发生的，但是通常情况下（大约每隔20秒）就会发生一次。我正在运行Netdata作为Web监控工具，而Newrelic则用于关键问题。

这是从Netdata仪表板获取的CPU图表的屏幕截图这是从Netdata仪表板获取的CPUgraphics的屏幕截图，因为您可以看到服务器在发生冻结时停止报告统计信息。我发现IO / Wait有时会在看到服务器冻结之前爆发，但在读取线程和search高IO / Wait之后，除了[jbd2/vda1-8]进程不断地写入磁盘。

当运行像top, ps, iotop and htop这样的监视工具时，即使发生冻结问题，我也没有看到任何使用过量资源的进程。

当使用主机提供商的（OVH's）KVMlogin到服务器时，我看到以下消息; NMI watchdog: BUG: soft lockup CPU#0/1 stuck for 21s! [process] NMI watchdog: BUG: soft lockup CPU#0/1 stuck for 21s! [process] 。同时研究这个错误信息并没有提供太多的信息或解决scheme。我目前没有什么可能会导致这些问题的想法，所以任何帮助表示赞赏。

我不能像所有其他人一样写评论，但必须做一个“官方”的答案，尽pipe我所要提供的只是猜测。 :-)既然它是一个虚拟主机，也就是虚拟机（显然是KVM），我可以想象你的主机有一些正在进行的幕后基础设施工作，或者有一些可靠性问题。这可能意味着你的虚拟机

VM由于某种原因从一台物理服务器迁移到另一台（这要求暂时停止vcpus，以便VM状态可以通过networking传输）。一个迹象表明（以我的经验），系统时钟closures了几秒钟，需要由ntp守护程序纠正。
您的服务器的虚拟磁盘所在的存储在短时间内无法访问（顺便说一下，这很可能不是本地SSD，而是SAN或NFS服务器上的一些磁盘空间）。所以进程会卡在I / O上，这通常意味着即使CPU利用率很低，系统负载值也会增加。

正如我所说，只是猜测，但也许这是一个想法，与你的主机谈话。

您的VPS可能会限制您的CPU和磁盘使用量，当节stream太严重时会导致明显的冻结。通过top检查CPU冻结时间（或刚好在/之前）是否高。