6 月 4 日消息,AMD 在近日发布的 EPYC 7002 “Rome”服务器芯片指南中,承认由于时钟倒计时器存在 BUG,导致第二代 EPYC 芯片正常运行 1044 天后出现内核卡死情况。
使用这款 EPYC 芯片的服务器,需要每隔 2.93 年时间重新启动一次,AMD 官方表示不会修复上述 BUG。
AMD 在指南中表示,导致这个问题的原因是内核无法脱离 CC6 省电模式(Core C6 State),进入该模式之后,会降低电压和时钟频率。AMD 澄清说,误差的时间可能取决于扩频调制和 REFCLK 频率参考。
Reddit 用户 acid_migrain 经过详细的演算,认为实际导致卡死的时间并非 1044 天,而是 1042 天 12 个小时。
IT之家注:AMD 于 2018 年推出 EPYC “Rome”系列服务器芯片,部分客户已经向 AMD 反馈遇到了这个问题。国外科技媒体 technewsspace 给出的方案如下:
1.每隔 1044 天重新启动一次服务器
2.禁用 CC6 省电模式
AMD 表示没有计划修复该漏洞,国外科技媒体 technewsspace 认为理由要么是修复成本太高,要么是受影响用户规模不大。