所以最终会发生什么,一切都会正常工作,有时几天。 然而,当我执行我的代码的部署(全部包含在它自己的Docker容器中,并且存储在Dockerhub上的图像)时,它会导致Kubernetes崩溃,从而导致其他一切崩溃。 我一直无法找出任何的韵律或理由。 而且大多数情况下,我还没有find任何有助于解决问题的方法。 通常,无论出于何种原因,它都会重新开始工作 – 尽pipe我知道至less一次删除整个实例组并重新开始。 哪些工作。
现在,当我进行部署时,我所做的就是运行kubectl set image deployment命令。 在大多数情况下,只有一次奇怪的事情发生。
现在,更具体地说,奇怪的是,如果我尝试去https://<master node>/ui我会得到这样的错误:
{ "kind": "Status", "apiVersion": "v1", "metadata": {}, "status": "Failure", "message": "no endpoints available for service \"kubernetes-dashboard\"", "reason": "ServiceUnavailable", "code": 503 }
这是kubectl cluster-info的输出
Kubernetes master is running at https://104.198.207.42 GLBCDefaultBackend is running at https://104.198.207.42/api/v1/proxy/namespaces/kube-system/services/default-http-backend Heapster is running at https://104.198.207.42/api/v1/proxy/namespaces/kube-system/services/heapster KubeDNS is running at https://104.198.207.42/api/v1/proxy/namespaces/kube-system/services/kube-dns kubernetes-dashboard is running at https://104.198.207.42/api/v1/proxy/namespaces/kube-system/services/kubernetes-dashboard
一半通过写这个神奇的魔术开始工作,所以我不能真正粘贴更多的输出(或者,我不知道在哪里寻找它,至less)。
但是,如果任何人有什么想法是什么导致这个,我怎么可以尝试修复它下次发生这将是惊人的。 部署能够随机地破坏事情并导致我几小时的停机时间,同时我毫无目的地毫无目的地尝试修复它,这是非常令人沮丧的。 只是让它随机决定再次工作。
谢谢阅读!
所以,为了文件的利益,任何人都有这个问题。 我不得不升级到更大的实例,这是因为我得到了OOM(内存不足)错误。
我不记得我是如何发现这些错误的,无论是kubectl logs还是gcloud命令行工具。 但其中一个最终说有“OOM”错误。
我也面临同样的问题,每当CPU利用率接近100%,kubernetes仪表板给出了相同的错误
{ "kind": "Status", "apiVersion": "v1", "metadata": {}, "status": "Failure", "message": "no endpoints available for service \"kubernetes-dashboard\"", "reason": "ServiceUnavailable", "code": 503 }
而当我删除一些虚拟豆荚,它会自动开始工作了。
主要的是我有4个节点,大多数豆荚只在1-2节点调度。