Stackdriver进程健康警报不解决

星期四下午,我们在Google Cloud上的项目(也许是所有这些项目)都被迁移到了更新版本的Stackdriver。 那时,我们所有的Process Health警报都被触发了。 这有点吓人,但我们意识到发生了什么,所以没有造成严重的伤害。 但从那时起:

  • 任何已触发的进程健康警报都处于警告状态
  • 任何新的警报都可以触发一次(通过手动停止一个受监视的进程),然后这些警报也会停留在警报状态。

到目前为止尝试修复:

  • 升级的stackdriver-agent
  • 重新创build了一些警报
  • validation在app.google.stackdriver.com我可以看到每个实例上的所有正在运行的进程。

重新启动stackdriver-agent后,我看到一个警告:

没有被授权与GCM API交谈,正在退回传统…(警告)

其他人遇到同样的问题?

在迁移到新的Stackdriver服务之后,您可能会遇到来自最初没有configuration所需API范围的实例的错误肯定健康警报,或者没有使用'--write-gcm'安装监视代理程序标志启用。

要validation实例作用域是否正确,请参阅文档部分“ validation计算引擎凭据 ”以获取有关如何在云控制台中执行此操作的详细信息。 如果您没有Cloud Monitoring API的“ 只写”或“ 完全”权限,则文档将指导您在“ 添加凭据 ”部分的最后一步设置私钥服务帐户凭据。

或者,如果重新创build实例而不删除引导磁盘,默认情况下,正确的作用域将被添加到计算引擎凭据中。

您还应该确保监视代理程序安装了'--write-gcm'标志,如“ 在Linux上安装 ”一样。 最后,确保在您的项目上启用了Cloud Monitoring API 。