我一直在arch linux上运行一个全新的系统大约3周,昨天晚上它自发地重新启动。
在重启时没有关机/停止在journalctl,所以我很确定这是硬件相关的,而不是一个用户空间程序或acpi。
journalctl Jul 01 06:21:15 euclid sshd[25731]: ... -- Reboot -- Jul 01 06:24:46 euclid systemd-journald[305]: Time spent on flushing to /var is 547us for 0 entries.
然后,在开机过程中,
Jul 01 06:24:46 euclid kernel: .... node #0, CPUs: #1 #2 #3 Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: Machine check events logged Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: CPU 3: Machine Check: 0 Bank 5: bea0000000000108 Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff810b4260 MISC d012000101000000 SYND 4d000000 IPID 500b000000000 Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1498915479 SOCKET 0 APIC 3 microcode 800111c Jul 01 06:24:46 euclid kernel: #4 #5 #6 #7 #8 #9 #10 #11 #12 #13 #14 #15
当我尝试运行mcelog时,我得到了
0 % mcelog mcelog: ERROR: AMD Processor family 23: mcelog does not support this processor. Please use the edac_mce_amd module instead. CPU is unsupported
我怀疑或者1)我把这个系统的PSU做得太小,或者2)某处过热。
我跑的所有PSU计算器都给了我750W的build议,所以我用了一个850W的PSU。 不过,现在我正在考虑升级到1000W电源。
我的问题是,我怎么解释这个机器检查事件? 我想这是特定于我的CPU? AMD公司是否提供任何信息来帮助我解决这个错误? 而且,我怎么知道我是否因过热而重新启动? 我无法findBIOS(华硕)的任何事件日志。
编辑:更多细节
处理器:Ryzen 7 1700
Mobo:华硕Prime x370-Pro
RAM:G.SKILL三叉戟Z(4x 8GB)3200(F4-3200C16D-16GTZKW)
PSU:EVGA SuperNOVA 850 P2 80+ PLATINUM 850W
GPU:GTX 1080-TI x2
处理0x0000,DMItypes0,24字节
BIOS信息
供应商:American Megatrends Inc.
版本:0604
发行date:04/06/2017
没有超频。 股票BIOS设置。
它稳定运行了好几个星期。 事件发生前两天,我确实增加了3次硬盘。
编辑:同样的崩溃似乎再次发生
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: Machine check events logged Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: CPU 12: Machine Check: 0 Bank 5: bea0000000000108 Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff810b3ef6 MISC d012000101000000 SYND 4d000000 IPID 500b000000000 Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1499406389 SOCKET 0 APIC c microcode 800111c
看来这是一个CPU硬件问题。 在AMD社区论坛( https://community.amd.com/thread/215773 )上,build议禁用SMT或OpCache作为解决方法,直到解决问题。
我在BIOS中禁用了OpCache,启动过程中的mce:[Hardware Error]消息消失了。 我有两个相同的系统,这与冻结/重启有相同的问题。 到目前为止,两个系统都没有冻结。