加载服务器问题… hald,ata和scsi进程相关?

我需要一些帮助,以确定是什么使得我的服务器之一得到了一些高负载峰值(每5-10小时至less有一次,每秒至less120次)。

问题是这台服务器基本上是另一台服务器的镜像,它们都运行相同的应用程序,并且它们都连接到相同的dbb服务器(奇怪的是,用户数最less的服务器是提供这种高负载的服务器尖峰)。

当我将两个服务器进程与ps ax进行比较时,我正在debugging其中一个尖峰。 我发现他们之间有一些差异,主要是与这些过程有关,现在正在运行:

576? S <2:25 [ata / 0]
577? S <0:12 [ata / 1]
578? S <4:39 [ata / 2]
579? S <1:04 [ata / 3]
580? S <0:00 [ata_aux]
586? S 8:41 [scsi_eh_3]

6502? 15:07哈

这可能是问题的原因吗? 任何帮助将不胜感激。 亲切的问候,西蒙。

你提到,其中一个系统比另一个有更多的stream量,差别有多大? 如果问题的机器大多是空闲的,可能只是启动,cachingbuild设等成本。它不断地看到stream量,那么你可能有一个严重的硬件问题。

通常安装dmesgtopvmstatiostat不太常见,但通常作为一个包提供。 有关更多信息,请参阅手册页。

使用dmesg来查明内核是否出现IO或文件系统错误等问题。

top是非常有用的,它提供了有关进程表,内存使用情况,平均负载和CPU利用率的持续数据。 IO或内存利用率有显着差异吗?

vmstat用于提供虚拟内存,IO和CPU活动的统计信息。 第一条数据线是自引导以来的结果。 子线是自上一行以来发生的事情。 如果像vmstat 3那样调用,它每3秒更新一次信息。 如果像vmstat 3 3那样调用,它将运行,直到它提供3条数据线。

另一个工具是iostat。 这提供了一些有关发生的更详细的信息。 基本用法与vmstat类似。 换句话说,最后一个单独的数字表示收集间隔,2个数字表示收集数据的频率和次数。 对于IO问题, iostat -x 5和/或iostat -p ALL 5在追踪瓶颈方面非常有用。

如果你正在使用RAID5arrays中的任何驱动器有问题? 如果您正在使用软件RAID,则mdadm是该工具。 硬件RAID适配器有自己的工具来告诉你发生了什么事情。

我有一个案例,供应商提供的arraysreplace驱动器占据了原来驱动器性能的35%,导致arrays严重受损。replace驱动器理论上具有相同的基本规格,但未能处理排队以及原件。