我有一个网站,随机失败。 在joyent上开着solaris。
我有一个监控服务,当站点closures时提醒我,但是我想要一种方法来设置一个“内部人员”工具,告诉我为什么会发生这种情况。
是因为CPU太高? 不是记忆? 哪个进程失败? 有可能有一个回溯?
一切正在Solaris服务pipe理工具上运行。 networking服务器是切诺基,数据库是MySQL,语言是python / django。
我想要最简单的设置来监视&自动响应,即:重新启动web服务器或django进程,以防万一失败。
我更喜欢低开销的工具。 我不需要一些工具的花哨的监视,没有nedgraphics或短信警报。 只知道什么是失败的,如果可能的话重新启动它(也许最多n次),并且当我检查它时会有一个日志。
您也可以select使用Nodefly,NewRelic,Pagerduty,Pingdom或者nagios,Munin或zabbix中的任何一种来实施额外的监控。
你有很多select可用。
您可以通过/ var / svc / log中的日志满足您的所有需求。
这些是SMF在幕后为您的系统做的所有日志。
提取“有趣”的数据留给读者练习。
看看collectd。 我已经得到它在Illumos / smartos上编译。 也:
https://github.com/gflarity/nervous和https://github.com/gflarity/response