Percona XtraDB集群configuration了5台专用服务器(相同的机器:32个内核,96GB RAM,RAID中的SSD驱动器和千兆以太网链路)。
有一个反复出现的问题,导致群集的严重下降通常约30到60秒,但有时会被卡住达5-10分钟。
该系统用于繁忙的网站networking,我使用每个networking服务器上的mysql-proxy来负载均衡stream量到数据库。
如果仅启用一个节点,则问题不存在。 每增加一个节点,问题就会增加(查询放慢/locking的时间),直到4个节点处于活动状态(此时群集不能自动恢复)变得非常难以忍受。
以下是详细的症状:
错误日志通常是干净的,在发生减速之前或之后没有错误消息。 我很less得到这样的东西(可能是10次中的1次):
130906 9:53:27 [注意] WSREP:(3f3abd42-15bc-11e3-b38b-2e049b972e3b,'tcp://0.0.0.0:4567')转向消息中继请求,nonlive peers:tcp:// IPOFONEOFTHENODES
130906 9:53:27 WSREP:(3f3abd42-15bc-11e3-b38b-2e049b972e3b,'tcp://0.0.0.0:4567')将消息中继请求closures
在正常的负载下,我通常会有大约400的wsrep_cert_deps_distance。 一旦减速开始wsrep_cert_deps_distance慢慢增加,直到2k-3k范围(当它达到3k标记我需要手动禁用应用程序或集群不能自行恢复)
用mytop和atop监视我注意到在服务器或mysql进程中没有高负载。 在正常运行和减速期间,CPU使用率总是相当低(约为最大值的25%)。 I / O使用情况良好,充足的RAM免费,vmcom的限制下。
我使用myq_status来实时监控每个节点上的集群,这就是发生了什么事情:
以下是我执行的testing的详细信息,以尝试解决问题(没有任何运气…):
有没有人遇到类似的问题? 提前致谢!