Articles of 监视

如何将服务器指标数据发送到statsd?

我们的监控堆栈是Grafana + InluxDB + statsD。 我们用它来进行应用程序监视。 我们需要添加服务器指标(CPU,内存,networking连接等)到Grafana,所以我猜我们需要一些代理来收集服务器指标并传递给statsD。 你知道任何可以做到的代理吗? 或者任何其他方式来实现这一点?

使用ps命令中的VSZ监视Redhat服务器上进程的内存是否合理?

我在网上发现了很多关于RSS和VSZ文章,两者之间的区别是我真正理解的是在Linux上很难确定一个进程的实际使用内存。 这是非常不令人满意的。 现在,pipe理员关心我们的应用程序不希望我们进入生产,因为在他的眼中,我们的应用程序使用太多的内存。 他指出, VSZ的应用程序大约是10GB。 但是RSS大约是4GB。 使用ps命令中的VSZ来监视和警告Redhat服务器上的进程的内存是否有意义? 为了这样的监测,再采取一个价值会更好吗? 我相信添加所有应用程序的所有VSZ大小不等于服务器的所有内存的100%。 那么为什么要监控一个stream程呢? 监视服务器上的进程是否有意义,监视整个服务器的内存使用情况,并在达到所有内存的90%时做出反应是不是更好?

如何确定在服务器上造成高带宽使用率的原因

我有一个运行在VPS上的MySQL数据库服务器。 服务器通过专用networking接口连接到Web服务器,除SSH和PHPMyAdmin安装外,没有公共服务。 前段时间,我安装了一个Monit规则来检查公共networking接口(AKA,而不是MySQL数据经过的那个)上的exceptionstream量: # Monitor network connection check network public with interface eth1 if failed link then alert if changed link then alert if saturation > 90% then alert if download > 10 MB/s then alert if total upload > 1 GB in last hour then alert 几个月前,我开始感到由这个规则触发的Monit警报: Upload bytes exceeded Service public Date: Tue, […]

如何将Linux指标远程拉入本地Carbon / Graphite服务器?

我想从远程RedHat服务器(具有静态IP / DNS)将系统指标(IO,CPU,NET,RAM)收集到笔记本上运行的虚拟机上的Carbon / Graphite服务器上。 我的笔记本电脑主机操作系统是Windows,通常通过VPN连接一个dynamicIP,客机VM是通过NAT连接的Debian。 我不希望远程服务器将数据发送到我的笔记本电脑,因为我很可能会处理几个networking障碍,同时我想避免运行远程碳服务器,因为我不是pipe理员和我不能故意pipe理自己的包或依赖关系,所以我正在寻找一个解决scheme来“拉”数据。 我经历了互联网上的一些选项,但他们都假设这些指标被“推送”到碳服务器上,所以我正在寻求社区的build议。 我发现一个可行的select是远程使用nmon2graphite(perl脚本)并通过SSH + netcat读取FIFO文件,但是nmon2graphite根本没有运行(为AIXdevise),所以我放弃了这个选项。

什么恒定的吞吐量和线性回应时间告诉系统?

当系统的吞吐量是恒定的,只有响应时间变化(线性)时,这意味着什么? 这是否意味着我必须有一个瓶颈?

Perfmon – Win 2008 – 录制公制两次!

我注意到,在Win 2008服务器上设置的用于测量CPU的本地perfmon实际上是在logging到CPU时logging两个数据点: "(PDH-CSV 4.0) (GMT Daylight Time)(-60)","\\SIA16\Processor(_Total)\% Processor Time" "07/06/2009 10:04:14.358"," " "07/06/2009 10:04:44.354","3.4623040374319847" "07/06/2009 10:04:44.369","0" "07/06/2009 10:05:14.349","4.167729488025862" "07/06/2009 10:05:14.365","24.961740656075715" "07/06/2009 10:05:44.354","3.2723078398174565" "07/06/2009 10:05:44.370","0" "07/06/2009 10:06:14.340","3.4322359633112365" "07/06/2009 10:06:14.371","0" "07/06/2009 10:06:44.342","1.584632850972445" "07/06/2009 10:06:44.373","0" "07/06/2009 10:07:14.346","3.8717442047881967" "07/06/2009 10:07:14.362","0" "07/06/2009 10:07:44.343","3.4048134031355537" "07/06/2009 10:07:44.359","0" "07/06/2009 10:08:14.348","3.8436432760831196" "07/06/2009 10:08:14.363","0" "07/06/2009 10:08:44.344","3.7013401033585414" "07/06/2009 10:08:44.360","0" "07/06/2009 10:09:14.344","5.003598753410432" "07/06/2009 10:09:14.360","0" "07/06/2009 10:09:44.353","2.3193168051101831" "07/06/2009 […]

GE NetPRO UPS监控软件适用于Windows Server 2008?

我们用运行Windows Server 2008的新文件服务器取代了旧文件服务器。我们用于旧服务器的UPS是GE NetPro 1500VA设备。 它带有JUMP DataShield监控软件,它似乎自2005年以来没有更新。我能find的最新更新(2.2.0)不支持Windows 2008。 有谁知道支持Windows 2008的替代监视软件,并且与GE UPS兼容? 虽然长时间停电很less,但是如果我知道当UPS电池电量不足时服务器能够正常关机,我仍然感觉更安全。

同一个Monit工作的分期和生产版本

我有monitconfiguration为监视我的应用程序的生产版本的作业: # in /etc/monitrc: include /etc/monit/delayed_job.my_app.production.monitrc # in /etc/monit/delayed_job.my_app.production.monitrc check process delayed_job with pidfile /var/www/apps/myapp_production/shared/pids/delayed_job.pid start program = "/var/www/apps/myapp_production/current/script/delayed_job -e production start" stop program = "/var/www/apps/myapp_production/current/script/delayed_job -e production stop" 我也想在同一个盒子上监视暂存版本,但我不能完全弄清楚是否允许我想要做什么。 我的第一个猜测就是做一个gsub/production/staging : # in /etc/monitrc: include /etc/monit/delayed_job.my_app.staging.monitrc # in /etc/monit/delayed_job.my_app.staging.monitrc: check process delayed_job with pidfile /var/www/apps/myapp_staging/shared/pids/delayed_job.pid start program = "/var/www/apps/myapp_staging/current/script/delayed_job -e staging start" stop program […]

SQL Server监控

我正在寻找一些可用于监视Microsoft SQL Server 2005&2008的开源软件。 我想要的function包括: 制图 loggingCPU使用情况 logging磁盘I / O统计信息 当计数器超过阈值时,能够设置通知 如果可能的话,我也想整合一些SQL服务器特定的指标,如缓冲区caching命中,会话数量等。 任何人都可以就你在环境中使用什么做任何推荐。

nagios check_http在cmdline上返回200,在web ui中返回404

不知道这里有什么问题,但是我正在为两台在同一台Web服务器上运行的虚拟主机进行testing。 我只是想确保一个HTTP 200上的GET回来。当我在命令行上运行这个,没有问题: st:/etc/nagios3# /usr/lib/nagios/plugins/check_http www.example.com HTTP OK: HTTP/1.1 200 OK – 14144 bytes in 0.055 second response time |time=0.055208s;;;0.000000 size=14144B;;;0 只要我popup这个configuration,虽然,我得到一个警告,404警报: 在我的commands.cfg中: define command { command_name check_http command_line $USER1$/check_http -H $HOSTNAME$ } 并在我的services.cfg: define service { use generic-service host_name myhost service_description HTTP-WWW check_command check_httpname!www.example.com }