我pipe理一些Linux文件服务器。 这些都运行在0-10年前编写的应用程序。 有时候会发生机器靠近或磁盘空间不足的情况。 原因包括不轮转日志文件的应用程序,一台500GB磁盘的机器,每月产生150GB的新文件,这些文件没有写入磁带,数据库逐渐增大,人们做傻事…通常有点混乱。
无论如何,当一台机器在几个小时内意外地从50%充满到100%时,我找出什么坏了(大量的“du”),删除文件或联系某人。 我也可以看看仙人掌图来找出机器的正常磁盘使用情况(例如/ home)。
有没有人知道任何工具,会提供比cacti / RRD图更好的历史使用信息? 像“/ home / abc / xyz在最后一天增加了50GB”。
我认为math曲线拟合可能是一个答案,但我还没有探索它。 我正在谈论Twitter的John Adams谈到他们的容量规划是如何做的,这似乎是一个有用的想法。
我对曲线拟合的理解是把现有的数据和给你一个用法外推。 这可以用来回答“基于目前的使用情况,我们的磁盘什么时候会达到100%?”等问题。
这是曲线拟合的维基百科页面 。 包fityk看起来是一个很好的开始。
似乎有些编程需要做到这一点,不幸的是,我没有看到像Cacti这样的监控软件包的任何简单的插件插件。
Munin将监控磁盘使用情况并发送警报。 这些graphics与您使用rrd进行存储时使用的cacti / RRD类似。 我已经用muninreplace了nagios和mtrg来做很多事情。 有没有被munin覆盖的nagios的用途。
我曾经不得不做类似的事情。 我用每天晚上在受影响的文件系统上运行du的cron作业来解决问题,并将其保存到命名文件中。 当服务器填满时,很容易将当前的du与其中一个存档的du进行比较,并找出发生的事情。 这也为您的未来磁盘估计需求提供了随时间增长的大量信息。
你想过监视吗?
也许它更好地使用滞后的Nagios来监视你的服务器。 而当你的磁盘超过90%,例如你会收到一封这样的邮件。
在此解决scheme中,您可以使用CACTI查看历史logging,但如果您有一个或多个临界状态,例如当70%的磁盘空间出现警告和90%严重警告时,Nagios会发出警告。
而Nagios只是一个例子,你可以用一个应用程序来监视所有你的linux服务器,而不仅仅是磁盘。