内存中的操作系统caching增加,导致系统CPU使用率过高

很长的问题,所以请裸露我:我有一个奇怪的问题,我从来没有见过的服务器。 在具有〜30G RAM的机器上,应用程序需要〜10G(分布在数百个进程中)。 随着时间的推移,操作系统开始用高速caching和缓冲区来填充备用RAM(对于Linux来说是完全正常的)。 之前我已经看到过这种情况,没有任何问题,但是在这台机器上,随着空的内存量的减less,在256M的标记处,系统CPU疯狂(在8个CPU上达到100%,持续时间约为3分钟)。 我猜测操作系统正在使用所有的CPU随机播放内存来获得一些空闲空间。

从我对Linux内存pipe理的理解来看,它应该尽可能在RAM中使用自由空间,因为它可以用于操作系统级别的caching,但是当被问及时将其交给任何需要它的应用程序,从过去的经验来看,这不是一个创伤性的体验为CPU。 它总是发生。 那么为什么这里会有所不同呢?

我附加了相关指标的vmstat输出的一小部分(每2秒捕获一次)。 当可用内存达到256M时,您可以看到系统CPU(第14列,右起第3列)开始变得忙碌,然后在30秒后变得非常疯狂。

rb swpd free buff cache si so bi bo in cs us sy id wa 1 0 0 293876 5022848 18797528 0 0 206 1712 20924 12845 29 9 61 1 6 0 0 285324 5022848 18797656 0 0 0 0 18795 11382 23 9 68 0 2 0 0 292320 5022848 18797916 0 0 26 2022 19933 12068 27 10 62 1 3 0 0 264492 5022848 18798196 0 0 14 0 20705 15412 30 9 61 0 3 0 0 254880 5022848 18798804 0 0 190 532 16207 9723 31 8 60 0 17 0 0 255588 5021292 18783092 0 0 24 2 13521 7471 27 42 31 0 3 0 0 288396 5020536 18771496 0 0 0 2 14277 8458 24 29 47 0 4 0 0 299560 5020180 18761296 0 0 0 448 8778 5099 21 30 49 0 2 0 0 290908 5019376 18753656 0 0 0 2 9027 5115 27 19 54 0 7 0 0 306060 5018544 18746740 0 0 38 442 8398 5134 20 17 63 0 1 0 0 317140 5018244 18744252 0 0 46 0 9707 5822 22 17 61 0 4 0 0 282268 5017748 18741836 0 0 12 2 10203 6165 26 12 62 0 1 0 0 322548 5017500 18738024 0 0 2 444 10593 6277 23 16 61 0 4 0 0 314936 5017280 18734564 0 0 6 8 9473 5680 25 15 61 0 13 0 0 316976 5017044 18731128 0 0 0 622 12481 7353 33 17 49 0 5 0 0 324952 5016908 18728552 0 0 10 222 11071 6965 22 13 65 0 2 0 0 324692 5016908 18728344 0 0 0 526 10612 6602 24 10 66 0 3 0 0 312312 5017136 18727644 0 0 156 1050 12316 7472 26 10 63 1 2 1 0 323392 5017260 18726848 0 0 66 26 11643 7152 23 13 64 0 8 1 0 318956 5017124 18723772 0 0 20 518 17042 9543 31 22 46 1 1 0 0 317816 5017124 18725428 0 0 0 2854 11704 6951 21 9 67 3 18 0 0 325136 5014492 18707212 0 0 0 32 7619 3845 16 58 27 0 46 0 0 323508 5012980 18692036 0 0 0 562 3939 917 3 92 5 0 71 0 0 299164 5009680 18675476 0 0 0 6 4696 1304 8 90 1 0 75 0 0 205364 5007744 18657228 0 0 36 340 6699 2556 18 82 0 0 75 0 0 221660 5005956 18636480 0 0 68 0 3942 943 4 95 0 0 84 0 0 223788 5004624 18618380 0 0 0 0 2843 335 3 97 1 0 44 0 0 214956 5002464 18599872 0 0 0 0 4696 1301 5 92 3 0 37 0 0 223804 4999964 18577076 0 0 0 0 3281 521 1 98 0 0 82 0 0 266888 4995768 18557264 0 0 0 1760 4595 766 4 96 1 0 91 0 0 260148 4993964 18541192 0 0 0 0 3780 866 6 94 0 0 74 0 0 279796 4990464 18524980 0 0 0 4 4096 926 4 96 0 0 44 0 0 274796 4984268 18503492 0 0 0 0 6316 2142 3 95 3 0 48 0 0 295616 4981824 18482616 0 0 0 0 2561 227 1 99 1 0 

我还包括监视工具的截图,以更直观地显示内存中正在发生的事情。 在该图中,底部(紫色)线是RAM中剩余的实际可用空间,每次达到256M时都会导致CPU峰值。

在这里输入图像说明

顺便说一句,swap在这台机器上是禁用的(如果你不能从vmstats中知道的话)。

更新提出的更多信息:

  • Linux是3.11.0,Ubuntu 13.10
  • 不是Java应用程序,而是PHP / Apache

我认为CPU只是用来扫描页面表来find哪些帧空闲。 这看起来很高,我有一个小页面,400 GB的内存系统,并没有performance出如此戏剧性的行为。 很难说什么是根本原因,但我想提出一个解决方法。 启用大量的大页面(通过vm.nr_hugepages )。 这将大大减less页面大小,因为巨大的页面有2个MiB,比一个小页面大512倍。 本文介绍了类似问题的解决scheme 。

一个限制是巨大的页面是不可调换的,但是在你的情况下看起来并不重要。