监控一个奴隶确保它是最好的做法是什么? a)仍在运行b)不是太大的主人 我想通过电子邮件提醒,如果它落后了,很高兴写一个或两个脚本钩入命令行应用程序。
我注意到我只能用CACTI显示一个不间断的时间。 我想知道是否可以制作只显示一段时间(一周,一个月等)的营业时间的自定义图表。 例如,我希望能够显示一个图表,平均入境stream量在上午8点到下午6点之间,为上个月每周5个工作日(星期一至星期五)。 我试图为RRDtoolconfiguration一个脚本,但我不知道正确的语法。 经过几次testing,我发现可以将不同的graphics叠加在一起。 我正在考虑计算所有图表的平均值,但是我不知道该怎么做。 我想configuration如下的东西: –startday 20120604+8h –endday 20120604+18h monday: –start startday –end endday tuesday: –start startday+24h –end endday+24h wednesday: –start startday+48h –end endday+48h thursday: –start startday+72h –end endday+72h friday: –start startday+96h –end endday+96h DEF:monday=router.rrd:gi0/1:traffic_mon:AVERAGE DEF:tuesday=router.rrd:gi0/1:traffic_tue:AVERAGE DEF:wednesday=router.rrd:gi0/1:traffic_wed:AVERAGE DEF:thursday=router.rrd:gi0/1:traffic_thu:AVERAGE DEF:friday=router.rrd:gi0/1:traffic_fri:AVERAGE DEF:traffic_mon:traffic_tue:traffic_wed:traffic_thu:traffic_fri:AVERAGE 我会apreciate任何帮助。 谢谢。
所以,正如我们在服务器故障中看到的一样,多年来我已经构build了每个系统的几个, 系统/networking监控 (我使用nagios) 系统/networking趋势 (我使用仙人掌) 集中日志监视 (syslog-NG) 基于主机的入侵检测系统 (OSSEC) 票务系统 (请求跟踪器) 内部维基软件 (MediaWiki) IP跟踪(内部基于NMAP的软件) 然而在一天结束的时候,我有时觉得我已经有点“拼凑起来”了,看起来最多可能是一两个软件。 我有点寻找一个“一体化的解决scheme,更容易pipe理,然后不得不处理7个不同的软件,只是有效的东西。 任何人都知道吗? 我已经看到了大量的监控应用程序和所有这些,但他们总是缺lesswiki和票务部分。 这对我来说从来没有什么意义,我认为如果警报响起,应该是工程师要解决的问题。 IDS同样如此,可能还会预告未来的通知。
我有一个高IO应用程序正在工作,并且扩展到目前为止。 在过去的几个月中,我们一直在试图放眼未来,预测下一个瓶颈将发生的地方。 其中之一肯定是文件系统。 我们正在监测 可用空间 每秒读取操作 每秒写入操作 这对我来说似乎有点太稀疏了。 还有什么我应该看? 我甚至不确定每秒操作的“黄线”是什么。
有没有办法通过SNMP共享SMART数据? 我希望能够制作它的仙人掌graphics,并将其与Nagios连接起来。 我想要做的是能够通过SNMP访问我的硬盘上的统计信息。 这将允许我绘制$ SMART_MEASUREMENT_VALUE的数量与时间的关系。
我正在testingOpenstack,我想知道如何才能找出有关实例(虚拟机)内的资源利用率。 Openstack在我的testing环境中使用kvm,qemu和libvirt。 有没有办法在没有login机器(CPU,内存,交换,networkingstream量)的情况下获得这些统计信息? 我想从hypervisor或libvirt收集这些数据。 有什么build议么?
我一直在寻找使用stream程统计来跟踪在我们的环境中运行有问题的脚本的各种用户和网站,而不是像定期刮顶一样。 不太清楚的是哪个字段真正表示使用的CPU秒/分钟。 我读过的手册页说'cpu'列是烧毁的秒数,但是也有'cp'列用-m显示,他们可以显示不同的总数。 例如: 当我使用-m标志时,我得到了 $sa -m | grep username username 14944 65.53re 29.90cp 5308k 当我使用-u标志并将“cpu”的列总计时,我得到以下结果: sa -u |grep username|awk 'BEGIN{TOTAL=0}{TOTAL=TOTAL+$2}END{print TOTAL}' 1032.86 任何人都可以帮助我理解这两种不同模式下“cp”和“cpu”列的区别吗? 谢谢!
我想听听你的方法来监视在EC2中运行的Linux实例。 我非常习惯使用Nagios来监视基于Web的应用程序生态系统的所有方面,但是它的模型似乎并不适用于经常被破坏和重新创build的机器。 我的EC2实例是由RightScale中介的,它有自己的监控scheme,我没有发现非常有用 – 虽然我打算再看看他们的监控。 有问题的实例运行正常的开源资源:MySQL,Apache,Passenger,Rails。 提前谢谢了。
我有一个使用SSH证书来validationSSH主机密钥的环境。 我正在谈论通过运行ssh-keygen -s /path/to/ca -h …创build的证书种类。 这些证书也是以有效期间创build的,说明它们何时到期。 这些证书现在已经被使用了足够长的时间,所以我需要开始监视它们,当它们开始接近过期的时候,它们会被抬起头来。 任何方式,我可以做一个远程连接,没有login,并以某种方式获取有效期间显示alt。 获得证书下载? 运行ssh -vvv不会显示我需要的信息。 ssh-keyscan也不会显示证书。 也许有些图书馆我没有仔细看过? 最坏的情况我总是可以编写一个监控插件,它在本地运行并分析ssh-keygen -L -f的输出。 不过,远程扫描真的感觉像是更好的方法。
我正在远程安装Windows Server 2008 R2上的SNMP和SNMP WMI Provider服务,为代理,陷阱和安全选项卡configuration特定选项,然后确保这些服务和设置未被删除或closures。 Zenoss远程监控服务器健康的愿望促成了这一目标的实现。 通过我的在线search,我觉得这可以用Powershell来完成,然后通过组策略推出,但是我对此很陌生,这有点混乱; 我也可能是错的。 我的一些服务器是企业,而一些是标准的都是R2。 我假设我将不得不为所有服务器安装SP1,.Net 4.0和Powershell 3.0,以在任何脚本中获得奇偶性和可靠性。 到目前为止,我已经可以为Powershell编写脚本来调用DISM来安装SNMP服务,并将该脚本设置为GPO中的login脚本,但是我知道这不是最好的方法,因为我不能只是去重新启动整个企业的服务器。 我需要指定以下项目:代理 – 联系人和位置陷阱 – 社区名称和陷阱目标安全性 – 发送身份validation陷阱=是,接受的团体名称只读并接受来自任何主机的SNMP陷阱=是 任何帮助将不胜感激!