Rhel 5.3服务器挂起,需要每两周重新启动一次

我在我的服务器场中有4个RHEL 5.3服务器(运行在HP刀片上)似乎每两周都会挂起,需要重新启动才能解决问题发生这种情况时,服务器对ssh尝试的连接没有响应,无法连接。只能通过国际劳工组织达成。 在服务器无响应之前。有时ssh会话在服务器进入无响应模式之前挂了很长时间。

通过国际劳工组织冷重新启动后,它回到正常的操作模式。我仔细查看了日志文件,发现什么都没有。在这个农场的其他RHEL 5.3服务器似乎没有这个问题,并没有启用IP表

我唯一发现的是,这些受影响的服务器上启用了IPtables,似乎有很高的数据包被拒绝..这就是所有我似乎在他们的日志中看到的,即系统日志/var/log/messages.High卷数据包拒绝日志文件,因为IP表已打开

这可能是IPtables导致的?日志显示没有任何磁盘,硬件问题或任何其他问题的迹象。 修补目前不是一个选项。如果IP表造成这个任何人都可以解释请帮助请任何人的任何帮助将不胜感激

这些是HP服务器,那么您是否正在运行HP Management Agents ? ASR看门狗定时器的值是多less? 我假设超时是默认的10分钟。 您是否在ILO日志或系统的IML日志中看到任何内容? 系统在重新启动之前停滞多久?

我会在ILO和服务器的IML日志中寻找信息。 您可能遇到硬件问题,或者可能是在应用程序/操作系统级别触发的事件。

高水平的数据包拒绝可能由于多种原因而发生 – 通常意味着iptables正在完成其工作。 毕竟,防火墙有什么好处,不会阻塞任何数据包,对吧?

你正在问一个非常具体的问题的一个非常具体的答案。

您所要求的可能是系统某些服务中的可靠性问题,或者可能是性能问题。 在开始检查日志和性能计数器之前,无法检查。 (你确实有性能指标被logging,不是吗?)

你能回答关于每个中断的以下问题吗?

  1. 在5分钟之内,确切的时间是什么时候,服务器死了?
  2. 系统日志显示从那时起任何有关的错误?
  3. 到那个时候的每个十分钟的时间里,平均负荷是多less?
  4. 到那个时候的每个十分钟的时间内,内存使用量是多less?
  5. 到那个时候,在每个十分钟的时间间隔里,你的进/出汇率是多less?

如果你不知道这些答案,你需要看看你的数据收集方法,直到你可以。 如果您不确定从何处开始跟踪Linux上的性能指标, sar是一个很好的起点。 您还可以看看Performance Co-Pilot , Munin或其他许多工具。

之后,如果你仍然认为iptables是怪罪的话,你可以通过在你的iptablesconfiguration文件中添加如下内容来打开日志logging:

-j LOG --log-prefix="" --log-level=info 

希望这可以帮助。

iptables 规则可能会导致/导致问题,特别是如果它们是有状态的 – 但它不仅仅是加载了iptables模块。

但是你没有说iptables规则是什么。

正如symcbean所说,更重要的是你的iptables规则。 确保你没有logging丢弃的数据包,除非你有特定的需求。 另外检查你的selinux日志(/var/log/audit/audit.log)。 我发现RHEL的一半问题来自于selinux。 确保您的日志分区没有填满。