我有一个服务器执行多个任务来通过它的stream量。
最近服务器一直在口吃。 当系统窒息时,它会重新启动 – 这就给我留下了一些关于窒息的病理信息(这肯定不是一个暴力的崩溃)。
您的经验中有哪些工具可帮助您保留有关系统扼stream圈的有意义的数据。
这可能是内存消耗,“ps”,“top”或任何其他参数。
请注意,一个简单的输出几个冗长的命令(ps -a)的脚本可以使用大量的存储,而且很难分析。
安装SAR,默认情况下每10分钟提供一次数据快照,但可以使用cron作业更改信息的速率。
它将提供大量有用的数据,例如内存,加载CPU使用率和磁盘I / O统计数据。
您需要对系统最常见的参数进行历史分析,我会推荐MUNIN,它通过networking提供大多数常见系统资源的graphics,您可以不断监视以查看哪个进程/哪个服务扼住资源和哪个资源。
之后,我会build议尾巴-f系统日志文件,这是什么原因造成这个问题。
有时候我觉得SAR特别less。 我遇到过需要全面了解系统中的情况的实例。 像top,ps,vmstat,netstat,iostat,iotop这样的命令随时可用。 通常我会将这些命令输出到文件中。 现在如果空间限制了你,有一个名为SeaLion的服务可以执行上面的所有命令并将其存储到云中。 你可以从你的浏览器访问这些数据。 
另外我想提一下像Nagios , Munin , New Relic , Server density等其他服务,这些Server density也可以从你的机器收集统计数据,在debugging问题时可能会得心应手。