工作已经提供了订购书籍,让我学习新的东西,所以我一直在Google上search,现在我想我会利用大量的互联网集体帮忙订购什么书。 到目前为止,我select了以下所有与我目前工作细节有关的书籍。 Nagios 3企业networking监控:包括插件和硬件设备[平装]:ISBN-13:978-1597492676 ISBN13:978-1-4302-3057-1 Pro Puppet ISBN 13:9780735627116 Windows Server 2008pipe理员口袋顾问,第二版[已更新为R2] 我主要使用BSD和Linux工作,但是我知道这些,所以我真正想学的是新东西。 这是Puppet,Nagios(我知道这个基础知识,但需要一本书来巩固它)和Windows,因为我可以被扔进Windows任务进一步在路上。 另外我还提供了一些思科ASA5510和6500的例子,所以我应该学习什么书来学习这些系统? 我非常精通terminal和文本命令,我只需要学习这些设备的语法以及大规模networking的基本培训。 奖金是一些活动目录和net-snmp(或一般snmp)书籍,我没有时间去search这些。 我当然是在寻找那些经验丰富的人阅读他们推荐的书,如果你没有,那么就不用费力去search和推荐他们,我可以自己做。 ;)
我所有的服务检查都基于启用通知的模板,通知期限设置为24×7,通知types设置为U,C等。但是服务检查模板中没有关联的联系人或联系人组。 当我添加一个新的服务检查,检查总是基于这些模板之一。 但是,我仍然不会添加任何联系人或组到实际检查本身。 这些检查全部被添加到一个名为Critical-Services的服务组中。 我也有一些用户是一个名为Duty-Admin-Pagers的联络小组的成员。 我有一个configuration了Duty-Admin-Pagers的链接联系人组(上面)和一个Critical-Services servicegroup_name为Critical-Services的服务升级,它看起来像这样: define serviceescalation{ servicegroup_name Critical-Services contact_groups Duty-Admin contacts first_notification 1 last_notification 999 notification_interval 1 escalation_period 24×7 escalation_options u,c } 每当一个服务进入关键困难,超过重试次数时,我就会得到寻呼机警报,就像我期待的Duty-Admin组成员一样。 但是,当我加载到Nagios这个configuration时,我得到如下警告: 主机“APC-PDU-0299”上的警告服务“APC-Power-Output”没有定义默认联系人或联系人组! 升级和通知仍然有效,仍然会向服务升级中定义的contact_group Duty-Admin发送通知。 我觉得这是一个方便的configuration,因为这意味着我不必在服务模板或服务检查本身明确定义联系人或联系人组,并使pipe理更简单。 尽pipe有警告,即使这种configuration工作正常,是否推荐?
我默默地重置了nagios用户的MySQL根密码,现在正在尝试连接到数据库,但是由于密码错误,它实际上不能进入。 nagios在哪里安全的MySQL密码或在哪里可以改变它? 问候
对于我来说,我找不到Nagios插件的configuration标志。 check_pgsql不会编译,因为它说找不到postgresql库,但我确切地知道他们在我的服务器上。
我正在使用NRPE和一个相当烦人的问题。 我需要将几个临时文件写入用户的主目录,NRPE正在(nagios)下运行。 我检查了Nagios的/ etc / passwd项是否正确指向/ home / nagios,并且将NRPE设置为在Nagios用户下执行。 该服务可靠地尝试写入我的用户文件夹(使用sudo重新启动服务时)或/(重新启动时)。 官方文件没有关于这个问题的任何内容。 我怎样才能做到这一点? 编辑 – 这只发生在通过NRPE执行的项目上。 这不是一个权限问题。 添加一个设置HOMEvariables的小脚本,然后调用预期的可执行文件确实解决了这个问题,但这是一个丑陋的,不可扩展的解决scheme。
我写了一个小脚本来检查PfSense的状态,并使用此脚本通过NRPE获得nagios中的输出… 这是脚本 used =`pfctl -s state | wc -l | bc | cut -c1-5 | bc` 回声“消耗的国家= $使用” 脚本的正常输出如下(当它在客户端上运行时)。 States consumed=25519 但问题是,当相同的脚本从nagios服务器通过NRPE运行时,我得到这个命令。 States consumed=0 但是,当我把任何东西放在variables“used”中,例如传递123的值,或者abc,它通过nrpe就可以在nagios服务器上看到…这里有什么问题? 自从最近5天以来,我已经尝试了所有可能的解决scheme。
我正在监视并警示一些networking应用程序中的一些业务指标(综合浏览量,注册等)。 我们已经使用Nagios和Munin进行各种各样的服务器监控和警报事件,这就是我开始使用Nagios和Munin的原因。 我可以为Nagios编写自定义插件,用于计算我们的统计/控制图表,并检查这些指标何时低于预期水平(警告和关键),但是我也想知道这些指标何时高于预期水平(更多注册 – 我们做对了!)。 有没有办法在Nagios或Munin中创build自定义警报级别,以适应这些积极的警报,还是有另一种工具,我应该看着解决这种情况? 理想的工具是: 包括更多的警报级别(严重,警告,确定,改进,尖峰) 请允许我查看有关生成警报的报告的附加数据(度量标准和观测值的期望值) (很高兴有)允许我绘制指标的历史logging,以便在收到警报后可以观察观察结果
由于英特尔TCO看门狗,我pipe理的一些服务器现在重新启动内核或硬件崩溃,现在init脚本甚至是'rebootsafe'。 可悲的是,这意味着当机器崩溃时,我不再收到来自nagios的通知,因为在检查触发足够的时间发送通知之前,服务只是备份。 是否有一个可靠的脚本或纳吉奥斯在那里检查,如果说在过去的48小时内机器崩溃说3次,会让我得到通知?
什么是我的networking正确的pipe理工具? 我看看仙人掌,Nagios,OpenNMS,Munin&Monit ……但我不确定哪个是最好的方向。 我更喜欢那些能够尽可能地提供开箱即用的东西。 我需要监视: 路由器SNMP 交换SNMP 30服务器IPMI / SNMP 服务如:nginx,独angular兽,Tomcat,Jetty,MySQL,Elasticsearch,Hadoop,PHP,Comet 很高兴有:graphics带宽使用,Nginx请求/秒 任何build议?
我想重新configurationNagios电子邮件通知,以便向我发送关于磁盘上最大文件的信息。 这是给我显示最大的20个文件的oneliner: find / -type f -ls | sort -k 7 -r -n | head -20 |grep -v lastlog | awk '{ sum=$7 ; hum[1024**3]="Gb";hum[1024**2]="Mb";hum[1024]="Kb"; for (x=1024**3; x>=1024; x/=1024){ if (sum>=x) { printf "%.2f %s" " " $11 "\n",sum/x,hum[x];break;} }}' 我希望Nagios在check_disk警报上触发此命令,并在Nagios通知中附加结果。 这可能吗? 谢谢