在定期的系统运行状况检查中要检查什么

我的任务是准备一份检查清单，作为我的团队应该做的每周系统健康检查程序的一部分。问题是我和我的同事都不是专业的系统pipe理员，而我们所能想到的最好的是非常可笑的。

该系统运行西门子SIMATIC IT和LIMS，但我对操作系统和数据库服务器的一些通用检查/testing感兴趣。其他人将负责特定于正在运行的应用程序的testing。

设置如下：

所有服务器都是虚拟的，在vSphere5环境中运行。

Web服务器 – MS Windows Server 2003 R2
2个运行SIMATIC IT组件的服务器，一个用于Historian，一个用于生产build模器和其他组件 – MS Windows Server 2003 R2
数据库服务器 – MS Windows Server 2003 R2 + MS SQL Server 2005
数据库+ LIMS服务器 – MS Windows Server 2008 R2 + Oracle数据库11g

很可能我们无法访问vCenter控制台，因此我们的想法是将远程桌面连接到这些服务器，进行一些build设性的检查/testing并准备报告。

正如我写的那样，除了检查一个可用的磁盘空间之外，没有什么可以提供的。我也可以考虑使用ChkDsk检查文件系统碎片级别和文件系统错误，查看windows事件查看器中的一些重要错误和警告，检查数据库中索引碎片的级别，并可能收集一些响应时间统计信息执行一些重要的查询的次数。

我将不胜感激任何帮助。除了关于应该检查什么的信息之外，在负载24/5的系统上不应该做什么的提示也是非常有用的。例如，运行一个碎片整理程序，即使只是在负载下的数据库服务器上进行分析也可能是一个非常糟糕的主意，但我还不知道。

谢谢。

你被要求做错了。

您不应该login到生产系统并定期进行手动检查。
这保证你将（a）错过检查之间发生的事情，并把你的业务closures，（b）最终在做检查时把事情弄糟，把业务压下来。

相反，您应该实施一个连续定期检查（每隔5-10分钟）并向您报告exception情况的监测系统。查看监控标签了解更多信息和想法。

磁盘空间，交换使用率和CPU负载（RunQ深度）是典型的要监视的事情。您可能还想要在数据库服务器上执行（并定时/检查输出）标准testing查询（这些查询是您必须根据您的环境创build的）。

对于在Windows OS上运行的服务器，重要的检查可能是：

从networkingangular度来看：

这可能是有用的…

我会添加一些其他的东西，因为这是一个Web服务器。

设置一个计划的任务来计算IIS日志中“200”，“500”，“401”和“503”响应的数量 – 您可以使用LOGPARSER来执行此操作。这个想法是，脚本会统计每个事件的发生次数，然后用200个响应的次数除以500和503个响应的数量。这将使您的Web服务器响应性能的总体健康状况（失败（500）/成功（200））的比率。
- 500 – 错误 – networking通话失败
- 503 – 超时 – Web代理从未收到上游Web服务器的响应
- 401 – 未经授权 – networking电话没有进行身份validation
- 200 – 成功 – networking电话被处理，没有错误抛出

然后，脚本应该将结果（包括原始数据）上传到中央报告系统，以便您可以检查它，而不必在本地login。

如果您需要对日志进行更深入的检查（例如，如果适用的话，哪个应用程序池的性能会很差），您可以在LOGPARSER上投入很多其他的东西来挖掘这些东西。