服务器 Gind.cn

服务器问题集锦,包括 Linux(Ubuntu, Centos,Debian等)和Windows Server服务器

排除Redis失速故障

我们有几个运行在服务器上的redis实例。 还有多个networking层服务器连接到那些同时经历失速的实例。 我们当时正在进行数据包捕获,根据以下wireshark IO图表,发现在TX和RXstream量中都有一个堵塞: 在redis调用中有一个相关的高峰,但我怀疑这是一个影响,而不是由于时间延迟的原因: 以15 / s的采样间隔(这是作为一个计数器收集),平均有136个内存分配停顿: 在同一时间迁移的NUMA页面的数量似乎也不是很多: 虽然上面看起来很正常,但是有两个连续的数据点,这使得它与图中看到的其他300多个尖峰相比是不正常的。 记忆压实失败和压实摊位也有相关的高峰: 尽pipe我在这里有大量的内存信息,但是我的Linux内存知识还不够深入,无法真正假设一个把所有这些信息汇集在一起​​解释失速的好故事。 任何拥有深厚的Linux内存知识(也许还有深度redis内存知识)的人都可以将这些信息结合在一起吗? 我们以15秒的时间间隔从/ proc / vmstat收集所有的统计数据,所以如果有任何数据可能会增加到这个请求。 我只是挑选了一些看起来有趣的事情,特别是资源分配,numa迁移和压缩失败。 总数如下,覆盖20天的正常运行时间: [kbrandt@ny-redis01: ~] uptime 21:11:49 up 20 days, 20:05, 8 users, load average: 1.05, 0.74, 0.69 [kbrandt@ny-redis01: ~] cat /proc/vmstat nr_free_pages 105382 nr_alloc_batch 5632 nr_inactive_anon 983455 nr_active_anon 15870487 nr_inactive_file 12904618 nr_active_file 2266184 nr_unevictable 0 nr_mlock 0 nr_anon_pages […]