Articles of 监视

计算天数直到磁盘满

我们使用石墨来追踪磁盘利用率的历史。 我们的警报系统会查看石墨的数据,以便在空闲空间低于一定数量的区块时提醒我们。 我想得到更聪明的警报 – 我真正关心的是“在我必须做些关于可用空间的事情之前,我有多less时间?”,例如,如果趋势显示在7天内我将用尽磁盘空间然后提出一个警告,如果它less于2天然后提出一个错误。 石墨的标准仪表板界面可以非常聪明的衍生品和霍尔特Winters信心乐队,但到目前为止我还没有find一种方法来将其转换为可操作的指标。 我用其他方式处理数字也很好(只需从石墨中提取原始数据并运行脚本即可)。 一个复杂因素是graphics不平滑 – 文件被添加和删除,但随着时间的推移总体趋势是磁盘空间的使用增加,所以也许有必要看看局部最小值(如果看“无磁盘”度量)并在低谷之间画出一个趋势。 有没有人做过这个?

FreeBSD:定期(8)太吵了。 我怎样才能控制噪音水平?

FreeBSD & MacOSX附带周期性(8)工具,它是一个整齐有序的工具集,用于定期运行系统function,如ZFS文件系统检查,安全检查,检查过时的端口等。 问题是周期性地发送太多包含太多多余信息的电子邮件。 这会导致人们忽略这些电子邮件,而且我们错过了周期性地提取的很多问题(8)。 每日电子邮件每天发送一次,安全电子邮件每天发送一次,每周和每月电子邮件也定期发送。 这些电子邮件有一个像这样的主题行: Subject: $HOSTNAME daily run output Subject: $HOSTNAME security run output Subject: $HOSTNAME weekly run output Subject: $HOSTNAME monthly run output 如何减less定期(8)发送的电子邮件数量? 我会在下面发表我自己的回答,但我想看看别人做了什么。 注 :我有一个类似的Linux问题,在Linux上:logwatch(8)&cron.daily太吵了。 我怎样才能控制噪音水平?

如何在RAIDarrays降级时收到电子邮件警报? VMware ESXi 5.0,MegaRAID SAS 9260-4i

我们最近购买了一台“白盒”服务器来运行VMware ESXi 5.0(我们计划使用vSphere 5 Essentials Kit)。 根据VMware兼容性指南,服务器的LSI Logic MegaRAID SAS 9260-4i RAID控制器是兼容的 (支持types列为“收件箱”)。 我已经尽可能在主机上安装ESXi 5.0,并且还安装了vCenter Server Appliance。 我使用vSphere Client连接到vCenter Server,并且可以看到预定义的警报列表,其中包括每当“主机存储状态”更改时都会触发的警报,这听起来就像我所需要的。 我刚刚尝试从RAIDarrays中拉出其中一个驱动器(导致RAID控制器发出预期的响声),但在vCenter中绝对没有发生任何事情。 “主机存储状态”警报似乎没有被触发。 我真正需要做的是将vCenterconfiguration为在RAIDarrays降级时发送电子邮件,以确保我们知道并可以replace死盘。 如果警报甚至没有触发,这似乎并不乐观。 我在这里错过了什么? 我绝不是VMware或服务器硬件方面的专家,所以我甚至不知道该问谁。 提前致谢!

在Linux中监视系统CPU /系统调用

我有几个进程正在吃掉很多系统CPU时间(通过查看vmstat)。 有没有简单的方法来找出正在进行什么样的系统调用? 我知道有strace,但有一个更快,更简单的方法? 系统调用是否存在类似“顶部”的内容?

如何测量solaris进程的内存使用情况?

如何检查solaris进程消耗多less内存? 我想要分配的总地址空间和驻留在RAM中的数量。 我试着用一些awk脚本总结pmap输出,但是这是一个丑陋的黑客。 有没有更好的方法来编写脚本?

聪明的nagios警报方法

我们使用Nagios,当有事情发生时我会收到短信。 许多其他系统pipe理员也获得文本。 然而,有没有其他聪明的/酷的其他方式人们已经得到了nagios警报?

有没有人知道一个简单的方法来监视根进程产卵

我想在新的根进程产生时执行一个脚本。 (在Linux上)我怎样才能做到这一点? 谢谢

监控运行ESXi的Dell / HP服务器(免费)

你们都在做什么来监控运行免费版本的ESXi服务器? 由于缺乏SNMP支持,对我来说似乎相当有限。 当驱动器或其他硬件出现故障时,我希望能够做的是获得某种警报。 我已经看到了一些关于在ESXi盒子上安装OpenManage(重build数组)的文章,但是这似乎也是一个相当痛苦的事情。 即使我使用OpenManage,我也不会在没有SNMP的情况下发出警报。 任何意见,input或指导将不胜感激。

监控互联网带宽

我们在我们的networking中安装了IPCop防火墙/代理,尽pipe我可以使用iftop来了解客户端如何使用互联网,但有可能使用ntop之类的东西从代理之外监控它吗? 请注意,我对LANstream量不感兴趣,只有去往/来自互联网的stream量。

什么警告和关键值用于check_load?

现在我正在使用这些值: # y = c * p / 100 # y: nagios value # c: number of cores # p: wanted load procent # 4 cores # time 5 minutes 10 minutes 15 minutes # warning: 90% 70% 50% # critical: 100% 80% 60% command[check_load]=/usr/local/nagios/libexec/check_load -w 3.6,2.8,2.0 -c 4.0,3.2,2.4 但是这些价值只是随机挑选出来的。 有没有人有一些testing值?