GCE上的Kubernetes随机停止工作

所以最终会发生什么，一切都会正常工作，有时几天。然而，当我执行我的代码的部署（全部包含在它自己的Docker容器中，并且存储在Dockerhub上的图像）时，它会导致Kubernetes崩溃，从而导致其他一切崩溃。我一直无法找出任何的韵律或理由。而且大多数情况下，我还没有find任何有助于解决问题的方法。通常，无论出于何种原因，它都会重新开始工作 – 尽pipe我知道至less一次删除整个实例组并重新开始。哪些工作。

现在，当我进行部署时，我所做的就是运行kubectl set image deployment命令。在大多数情况下，只有一次奇怪的事情发生。

现在，更具体地说，奇怪的是，如果我尝试去https://<master node>/ui我会得到这样的错误：

 { "kind": "Status", "apiVersion": "v1", "metadata": {}, "status": "Failure", "message": "no endpoints available for service \"kubernetes-dashboard\"", "reason": "ServiceUnavailable", "code": 503 }

这是kubectl cluster-info的输出

 Kubernetes master is running at https://104.198.207.42 GLBCDefaultBackend is running at https://104.198.207.42/api/v1/proxy/namespaces/kube-system/services/default-http-backend Heapster is running at https://104.198.207.42/api/v1/proxy/namespaces/kube-system/services/heapster KubeDNS is running at https://104.198.207.42/api/v1/proxy/namespaces/kube-system/services/kube-dns kubernetes-dashboard is running at https://104.198.207.42/api/v1/proxy/namespaces/kube-system/services/kubernetes-dashboard

一半通过写这个神奇的魔术开始工作，所以我不能真正粘贴更多的输出（或者，我不知道在哪里寻找它，至less）。

但是，如果任何人有什么想法是什么导致这个，我怎么可以尝试修复它下次发生这将是惊人的。部署能够随机地破坏事情并导致我几小时的停机时间，同时我毫无目的地毫无目的地尝试修复它，这是非常令人沮丧的。只是让它随机决定再次工作。

谢谢阅读！

所以，为了文件的利益，任何人都有这个问题。我不得不升级到更大的实例，这是因为我得到了OOM（内存不足）错误。

我不记得我是如何发现这些错误的，无论是kubectl logs还是gcloud命令行工具。但其中一个最终说有“OOM”错误。

我也面临同样的问题，每当CPU利用率接近100％，kubernetes仪表板给出了相同的错误

 { "kind": "Status", "apiVersion": "v1", "metadata": {}, "status": "Failure", "message": "no endpoints available for service \"kubernetes-dashboard\"", "reason": "ServiceUnavailable", "code": 503 }

而当我删除一些虚拟豆荚，它会自动开始工作了。

主要的是我有4个节点，大多数豆荚只在1-2节点调度。