我想logging有关FreeBSD下的系统活动的数据,以供将来分析。 如果我正在运行一个SysV系统,那么我只需要使用它的相关工具,但这在BSD中是不存在的。 (而且bsdsar已经失踪了。)我并不在意特定的格式或实用程序,但是我想保留有关CPU,RAM和VM利用率以及I / O信息的信息。 同时,全面的stream程会计似乎都是过度的,并不真正提供我想要的数据:特别是关于先前存在stream程的数据。 我只能logging从长期运行的vmstat,iostat等命令的输出,但似乎应该有一些整齐的东西。 最终,问题是: 在FreeBSD下找出最近的系统利用率的好方法是什么?
如果有人通过Putty(SSH)或terminal访问服务器 – 我想logging一切他们可以在屏幕上看到什么,他们已经input到video.. 有什么解决办法,有没有一个软件可以做到这一点?
我最近开始使用Nagios监视大约25台服务器(主要是虚拟的,有一些独立的)。 其中大部分服务器(包括Nagios主机本身)都运行Ubuntu 14.04 LTS,less数运行12.04 LTS。 因此,我认为我可以利用NRPE并做到这一点。 configurationNRPE对我来说已经certificate是相当复杂的。 例如,对于一个简单的check_disk命令,我不得不通过排除其他每个分区/文件系统来手动指定要检查的分区,如下所示: command[check_disk]=/usr/lib/nagios/plugins/check_disk -w 57% -x /dev -x /run -x /run/lock -x /run/shm -x /run/user -x /sys/fs/cgroup 否则,我的警告和关键阈值立即由sysfs,proc或其他分区引起。 然后我看了一下Nagios主机自己执行的基本服务监视器。 这是列在/usr/local/nagios/etc/localhost.cfg,并包含以下(我很抱歉!我不明白为什么它不会正确格式!) define service{ use local-service ; Name of service template to use host_name localhost service_description PING check_command check_ping!100.0,20%!500.0,60% } define service{ use local-service ; Name of service template to use […]
我在Ubuntu桌面(Nagios服务器)上安装了Nagios,我想监视Ubuntu服务器实例(受监视的客户端)。 我可以在两台机器之间通过SSH进行连接,并且不会阻止SSH。 nagios标准服务(如PING和check_users)正常工作,但check_ssh从一开始就保持UNKNOWN状态。 状态信息传递“使用情况:”这是指示参数是错误的。 我可以手动执行检查,在nagios服务器(Ubuntu桌面) /usr/local/nagios/libexec/check_ssh -H 192.168.0.2 SSH OK – OpenSSH_6.6.1p1 Ubuntu-2ubuntu2.3 (protocol 2.0) | time=0,012856s;;;0,000000;10,000000 并在主机(Ubuntu服务器) /usr/lib/nagios/plugins/check_ssh 192.168.0.2 SSH OK – OpenSSH_6.6.1p1 Ubuntu-2ubuntu2.3 (protocol 2.0) | time=0.011613s;;;0.000000;10.000000 这是主机configuration: define host { use linux-server host_name backup alias Backup Server address 192.168.0.2 register 1 } 主机的configuration是标准的: define service { host_name backup service_description Check SSH check_command […]
我接pipe了一台旧的IBM x3500 7977服务器,而我对IBM服务器没有多less了解。 我正在寻找相当于IBM的戴尔服务器pipe理员,只是为了监视和警告硬件故障,环境指标(电压,温度,风扇等) 在服务器上没有安装这种设备,只有一个RAIDarrayspipe理器。 有人知道IBM为此提供什么样的免费工具吗? 我查了一下,所有我能find的是Tivoli和System Director,都是集中专用的基于服务器的pipe理系统,我正在寻找一些监视独立的服务器。
我在AWS / EC2上有一个系统设置,它目前正在使用他们的CloudWatch警报系统。 问题是,这只发送给电子邮件,理想情况下,我希望这是打电话和/或发送短信到某些电话号码时,警报火灾(注意,我不需要打电话来实际上说什么,只是打电话给这个人)。 我们正试图解决亚马逊警报只有在人们检查他们的电子邮件时才有用的问题,但事实并非如此,因为所有服务器问题都喜欢在周六凌晨4点发生。 请回答任何可能的解决scheme/想法,理想情况下,我不希望实施整个监控系统(IE:Nagios),以处理这一切。
收集了一年左右的经验。 我记得它的速度和灵活性令人印象深刻,然而它从未被采用作为收集指标的主要来源,运行脚本将statsd / graphite / nagios发送数据的cron作业仍然是事实上的select。 在收集了一些被认为不太准确的指标之后,这个问题最近又出现了。 而且我想知道collectd是否仍然被认为是这样一个任务的好select,或者有更好的东西可以做这个工作。 度量收集的要求是: 他们至less收集一分钟 通过木偶或厨师轻松部署 对JVM,系统进程,MySQL,postgress,haproxy等开源平台组件的支持深度 我会有兴趣听到有这方面经验的人
我们有大约十几种Windows服务,既有自己开发的产品,也有第三方的产品,并且具有以下pipe理要求: 开始/停止/在一周中的某些特定日子的预定时间跳出指定的服务。 可选监视服务:如果受监视服务意外停止,请发送通知电子邮件,并可select启动它。 这些似乎相当基本的要求,但我还没有find任何简单的方法来满足他们与内置的Windowsfunction,或简单和负担得起的第三方工具。 这肯定是一个解决的问题?! 我期望立即find一些开源工具来做到这一点。 可选的“花哨的”要求是: – 意识到手动干预,使得工具不会干扰手动操作。 例如能够通过与监测相同的工具以交互方式停止和启动服务,和/或能够通知工具人工干预正在发生。 任何想法赞赏。
当条件匹配时,我怎么能做很多事情? 例如,如果我想重新启动一个进程,并发送警报邮件。 我知道我可以用两条独立的线做,但我可以把它们合并吗? if cpu > 95% for 2 cycles then restart if cpu > 95% for 2 cycles then alert
所以我创build了一个Linux资源监视工具,可以获取各种资源信息。 我试图拉的一个领域是我的网卡上的networking吞吐量的百分比。 所以如果我有一个每秒处理200 Mb(比特)的1 Gb(比特)网卡,工具将显示20%。 以下面的基本计算为例。 sar -n DEV 1 1 #Used to pull Rx and Tx KB(byte) per second. 从这里可以说,它总共报告17000 KB(字节)。 然后我需要将其转换为Kb(位)。 所以我会做以下。 17000 * 8 这给了我总共136000 Kb(比特)。 我需要把它变成Mb(bits)来从我的实际网卡速度中获得一个百分比。 136000 / 1000 我除以1000将其改为Mb(bits)。 总计现在是136 Mb。 从这里我需要得到一个基于我的网卡的百分比。 我有一个1Gb(位)的网卡。 136 / 1000 (NIC speed in Mb) * 100 这相当于13.6% 所以一个粗略的计算会告诉我,我的网卡正在处理据说能够由供应商处理的13.6%。 我的问题如下。 如果这是错误的网站,请转发我,因为这是部分networking,部分math和部分Linux / OS报告,所以我不知道要使用什么。 谢谢 我的推理是否有缺陷? […]