Linux：系统分析工具

我有一个服务器执行多个任务来通过它的stream量。
最近服务器一直在口吃。当系统窒息时，它会重新启动 – 这就给我留下了一些关于窒息的病理信息（这肯定不是一个暴力的崩溃）。
您的经验中有哪些工具可帮助您保留有关系统扼stream圈的有意义的数据。

这可能是内存消耗，“ps”，“top”或任何其他参数。
请注意，一个简单的输出几个冗长的命令（ps -a）的脚本可以使用大量的存储，而且很难分析。

安装SAR，默认情况下每10分钟提供一次数据快照，但可以使用cron作业更改信息的速率。

它将提供大量有用的数据，例如内存，加载CPU使用率和磁盘I / O统计数据。

您需要对系统最常见的参数进行历史分析，我会推荐MUNIN，它通过networking提供大多数常见系统资源的graphics，您可以不断监视以查看哪个进程/哪个服务扼住资源和哪个资源。

之后，我会build议尾巴-f系统日志文件，这是什么原因造成这个问题。

有时候我觉得SAR特别less。我遇到过需要全面了解系统中的情况的实例。像top，ps，vmstat，netstat，iostat，iotop这样的命令随时可用。通常我会将这些命令输出到文件中。现在如果空间限制了你，有一个名为SeaLion的服务可以执行上面的所有命令并将其存储到云中。你可以从你的浏览器访问这些数据。在这里输入图像说明

另外我想提一下像Nagios ， Munin ， New Relic ， Server density等其他服务，这些Server density也可以从你的机器收集统计数据，在debugging问题时可能会得心应手。