华南排错
基本资料手册¶
手册?不要异想天开了,国光我翻遍了国内外没看到华南官方有详细的手册,然后我就去找客服要相关资料,每次客服都发给我一个图,巧的是,问了两次客服,结果发的图还都不一样,版本迭代这么快?反正不管了,国光我把我的华南 X99 F8D-PLUS 要到的相关资料都贴下边了,大家也可以参考一下:
国光我的主板应该是旧款的 X99-F8D PLUS,问了一下客服新款改进了什么,客服就说换了一下 PCIe X16 的位置,其他都一样。
PCIe 插槽记录¶
- 至下而上慢慢加设备测试,因为下面三个 (4、5、6槽)是 CPU0 的 PCIe 通道,而(1、2、3槽)是 CPU1 的 PCIe 通道
- 插满 PCIe 的情况下,无法识别到 WD 1500 的 Raid 卡,怀疑是 X540 网卡问题,此时在直接插在 3 号插槽的情况下,手动将 PCIe 是速度设置为 Gen2 解决了这个问题:
- IIO1 PCIe 设置 - IOU2(Port 1) 设置 PCIe 宽度为 x8
- Socket 1 PcieDo1F0 - Port 1A - PCI-E Port Link - Enable
- Socket 1 PcieDo1F0 - Port 1A - Link Speed - Gen 2(5 GT/s)
- Socket 1 PcieDo1F0 - Port 1A - Override Max Link Width - x8
- Socket 1 PcieDo1F0 - Port 1A - Fatal Err Over - Enable
- Socket 1 PcieDo1F0 - Port 1A - Corr Err Over - Enable
- 浪潮 X540-T2 万兆网卡不可以使用显卡延长线外接(本打算延长出来好加风扇改良散热),尝试了几根不同带宽品牌的延长线均失败了,PVE 正常开机(伴随着很多 AER 报错)但是无法识别到这个网卡,而且 BIOS 里面手动将 PCIe 速度降低到 GEN2 也无法解决报错问题。
- PCIe x16 插槽(2槽)使用 PCIe x16 延长线出来外接 1 个 PCIe x16 转 x8 x4 x4 拆分卡,其中 x4 插槽插 PCIe 转 NVME 转接卡大概率报错,测试使用山泽的转接卡报错比使用ZOMY转接卡的报错要少一点,但是插拆分卡的 PCIe x8 接口依然报错,插 PCIe x4 则不报错(后面发现了,使用垃圾 山泽不报错的原因是因为开机根本无法识别到硬盘了,太离谱)
- 走 PCIe x1 插槽的无线网卡无论品牌均不会引起报错,使用各种各样转接卡都可以正常使用
- RX 580 比 RTX 3060 更不容易引起报错,1、2 槽插 RTX 3060 必报 AER 日志错误,但是 RX 580 就不会
- GT 630 更容易引起玄学问题,可能是卡比较老的原因,感觉只适合做亮机卡,放 PVE 里面会增加许多排错难度,后期足够稳定了考虑再加进去
- 当电脑无法开机进 BIOS 的时候,拔掉,1、2、3 槽的 PCIe 设备基本上可以重新进 BIOS,然后再慢慢加设备测试就行。
- 拆分卡插 NVME 转接卡也比较挑 SSD,有的 SSD 直接无法识别,有的 SSD 可以识别但是依然祖传 AER 报错,合适的NVME转接卡配合适的SSD然后巧巧插在合适的槽位就不会报 AER 报错,所以大量的排列组合少不了。
PCIe 折腾结果¶
下图虽然看下去比较简单,但却让我国光重启百来次,然后断断续续花费了几周时间才总结出来的最终完美的插法(Dmesg 无异常报错、开机正常、各硬件位置不干扰):
上图还考虑到了不同 PCIe 设备的发热问题,比如就没有让 X540 万兆网卡和 RTX 3060 挨着,否则发热量并不会少,下图是改进散热后的标记图:
开机通电自启¶
作为服务器肯定是不能随便关机的,所以我们需要一个备用的断电后来电的自动开机方案,华南 X99 主板支持设置通电后的电源状态。
BIOS 设置如下,找到【IntelRCSetup】-【PCH Configuration】-【PCH Devices】-【Restore AC after Power Loss】设置为【Power on】即可,表示断电后恢复的话,让电脑自动开机。
然后配合 1 个小米插座,就可以做到哪怕断电了,也可以使用 Siri 来唤醒工作站了:
解决博通报错¶
博通的 BCM 94360CD 是黑苹果顶级免驱网卡,但是 PVE 下使用的时候会发现报错了:
主要报错内容为:
看样子好像是 PVE 宿主机尝试驱动我们这 博通 BCM 94360CD 无线网卡,我们没有这种使用场景,无线网卡是要直通给我的 黑苹果 VM 使用的,所以我们得想办法让 PVE 不驱动它。
# 查看无线网卡
lspci -nn | grep -E "Network|Wireless|Adapter"
# 查看总线为 82:00.0 的无线网卡详情
lspci -s 82:00.0 -v
发现 BCM 94360CD 所使用的驱动为 bcma:
那么将其添加到 PVE 驱动加载的黑名单即可:
国光我最终完整的 PVE 驱动黑名单供大家参考:
$ cat /etc/modprobe.d/blacklist.conf
blacklist nvidiafb
blacklist nouveau
blacklist nvidia
blacklist radeon
blacklist amdgpu
blacklist snd_hda_intel
blacklist snd_hda_codec_hdmi
blacklist i915
blacklist bcma