我绝不是ITIL或ITSM专家,但是我们公司正在努力采用它。 我们的团队已经遇到了一个需求,从我读过的/研究过的那一点,我觉得SPM / SCM / SLM最适合。 我希望得到一些反馈/想法/想法。 我的目标是把我的想法带给相应的stream程经理,但我不想听起来像一个白痴,这就是为什么我来这里希望能受到一点教育。 概观 我们公司为客户提供服务 我们公司有很多应用程序提供这些服务 每个应用程序由不同的团队/人员拥有 我的组织(在公司内)为应用程序提供服务(实质上我们提供应用程序的全天候监视) 我们不会为每个应用程序提供服务,而只是需要它的服务 我们需要的是一种pipe理我们提供给应用程序的服务的方法。 什么说什么服务我们提供: 供应链pipe理 ? 与我们提供服务的所有应用程序团队保持协议的内容: SLM ? 为了提供他们想要的服务(比如在停止工作时通知谁),我们需要客户(应用程序团队)提供的所有信息: SLM ? 基本上,我想知道我的思维过程是否正确。 如果SCM / SLM是我们需求的最佳过程。
我们一直在监视Debian服务器的内存使用情况,以便在内存使用率超过一定的百分比阈值时收到警报。 然而,高ram使用率不一定是一个问题,甚至可能是可取的,因为它表明ram正在做的工作caching的东西,加快速度(有大量的服务器故障的问题)。 结果是,我不确定我们可以明确地说“可用的内存不足30%是一件坏事”,我的意思是不好的 – 给别人发短信并把它们唤醒。 在计算可用内存时,我们可以考虑磁盘caching等问题,但同样的问题仍然存在 – 有时我们需要使用大量的内存。 或者,我们可以监视像swapio这样的事物来识别高级别的交换,但是这又不一定是坏事。 这可能表示一个繁忙的服务器,而不是一个失败的服务器。 任何人都可以build议我们可以衡量和明确表示“这是多less这是一个有人需要去看看的问题”公羊的指标? 这可能就像说“没有服务器应该less于10%免费”一样简单。 或者,我们是否吠叫错了树? 我们是否应该自己监视服务(例如快速加载页面),然后保持内存级别的logging和绘制,以防我们需要查看它?
目前我把我的网站的每小时stream量(input请求总数)放在MySQL表中。 我保留了过去90天的数据。 我想每小时检查一下,比如说第6个小时,交通是否比过去7天或最近30天6小时的交通量增加/减less了一些门槛。 基本上,我看到一种交通模式。 不同的时间有不同的价值。 要生成警报,我想find各种统计指标。 稍微阅读后,我发现Statsd可以用于这个目的。 用这种方式发送警报是否正确? 有没有更好/更简单的解决scheme呢? 我不打算build立任何仪表板。 我目前的数据如下所示: +———————+———————+———–+———-+ | startTime | endTime | component | traffic | +———————+———————+———–+———-+ | 2015-05-01 00:00:00 | 2015-05-01 01:00:00 | rest | 29090345 | | 2015-05-01 01:00:00 | 2015-05-01 02:00:00 | rest | 32224087 | | 2015-05-01 02:00:00 | 2015-05-01 03:00:00 | rest | 35165799 | […]
我有一个IBM DS3512存储系统,我想监视。 到目前为止,我能够在Powershell上创build一个自定义的XML传感器,它捕获由smcli.exe保存的性能数据(唯一已知的方式来访问愚蠢的存储并获取性能数据),并创build一个多通道的XML结果,以便PRTG显示。 主要的问题在于设备有相当数量的LUN,每个LUN都需要通过多个参数(平均/分钟/最大MB / s IOP和延迟,共计9)进行监控,因此返回的通道总数传感器超过500.我怎样才能结构化返回的XML,使数据可以列出属于一个LUN(我会罚款60组,每组9个传感器)? 我不希望产生60个独立的传感器,它们将parsing一组60个文件并检索它们自己的部分数据。
我现在正在CentOS7上运行Naemon,因为你可以在标题中看到它,因为某些原因,我不知道。 当我试图添加一些检查来监视我的Esx和我的Vcenter时,这个问题就开始了。 为了您的信息,我使用这个Naemon通过livestatus方法运行web gui Thruk。 以下是我可以find的最详尽的日志: Naemon.log: [1438693212] Warning: Return code of 255 for check of service 'ESX : Etat général' on host 'SWE-ESX' was out of bounds. [1438693215] Warning: Return code of 255 for check of service 'ESX_cpu_usage' on host 'srv_esx_5' was out of bounds. [1438693216] Warning: Return code of 255 for check of […]
问题应该很简单,但对我来说不是那么明显。 我有一个在MacOS X下的指定目录中创build临时对象的过程。 我需要find进程的磁盘占用率 ,如果可能的话使用shell脚本。 我的问题是,我无法从du -ahcfind一个简单的方法来获取进程运行时的目录大小,并对其进行监视。 即使只是获得最大尺寸,而不是随着时间的推移,我也会解决。 任何人都可以指向正确的方向吗? 谢谢!
是否有任何用户级封装的脚本/程序,可以观察应用程序访问什么文件,而不影响性能? 我试图捕获由自动化工作stream程生成的文件,以便后处理它生成的文件(以及仅生成它生成的文件)。 我试图从字面上只是映射文件前后运行,但这将无法正常工作,因为这些文件是在一个共享的NFS挂载,所以当另一个主机/进程写入相同的领域(他们需要)会混淆后期处理。 我也尝试了一些成功的inotify (因为在NFS挂载上使用时,它不检测其他主机写入的文件),但不幸的是它不会检测到由其他主机创build的新目录,本地进程可能会写入到,但不会收到通知。 所以我还想知道是否有任何程序可以从字面上捕获/logging应用程序所做的文件系统调用,类似于tsocks ( 1 )对networking调用的作用。
有没有任何本地方式实际检索Icinga 2实例的当前检查结果? 我找不到logging。 如果没有,是否有接受,知名的命令行前端查询Icinga / IDO / API?
在这个假设的例子中,我们有一个跨电子商务公司的多个工程团队的数据stream。 这些团队在stream程的不同点提供服务,生成数据和使用数据。 例如; “团队订单”维护订单数据库和接口 “团队stream量”生成networkingstream量数据 “团队仓库”维护数据仓库 “团队stream量”取决于“团队订单”的服务来检索订单数据并将其与networkingstream量相关联 “团队仓库”依赖于“团队stream量”的数据来构buildDW表格 想象一下,“团队订单”遇到一个数据库问题(负载,等待时间,无论如何) – 他们的监控系统提醒开始调查数据库问题的工程师。 与此同时,“团队交通”也被警告,因为他们看到了不好的反应。 他们开始调查,很快意识到问题出在“团队订单”的服务上,并提出“团队订单” 所有这些下游,“团队仓库”正在接收不良的数据。 他们的DW监测警告他们这种差异,所以他们开始寻找根本原因。 问题是,现在我们至less有三名工程师正在调查同一个问题,他们甚至可能不知道其他团队也在做同样的事情。 重要的一点是,三支队伍都在使用不同的监控和报警系统。 团队订单正在监控数据库服务器问题,而团队仓库正在查找logging数量的差异。 还有其他的方法; 仅在pipe道顶部发出警报(阻止下游升级)或在pipe道底部向上游系统发出警报。 是否有任何最佳实践,白皮书或工程解决scheme可供我们研究,以了解跨多个英/支持团队的不同方式来提醒和升级数据问题?
当一个新的端口在linux debian中侦听时,是否可以使用Syslog进行login? 我怎样才能做到这一点? 此外,有没有办法login到top或htop命令的syslog结果? 问候