很多团队搭本地推理工作站,精力都花在选 GPU,最后却死在供电和散热上。机器能亮机,不代表能在高负载下稳定跑一周。只要电源、机箱风道和线材规划没有前置,后面的问题会源源不断。
首先确认真实功耗窗口
本地推理并不总是满载,但峰值和稳态都要算。建议至少分别估算:
- 冷启动与加载模型时的瞬时功耗。
- 连续推理 30 分钟后的稳态功耗。
- 多卡或外设同时工作时的总线和电源压力。
如果只拿 TDP 估算,结果通常会偏乐观。
供电余量不是浪费
对长期运行的工作站,电源不要只按“够用”来配。合理的余量能换来更稳定的效率区间、更低的噪声和更低的故障率。尤其当项目会逐步增加采集卡、NVMe、网卡或第二张加速卡时,供电规划必须一步到位。
风道与布线会影响稳定性
实验室里最容易被忽略的是布线和风道。线材挡风、进风口受限、机箱静压不够,这些问题在短跑 benchmark 里不明显,但在长时间推理时会逐渐放大,最后表现成随机降频或系统重启。
不要忽略供电可观测性
一台工作站至少应该能让你看到输入功率、热点温度、风扇策略和异常日志。没有可观测性,任何稳定性问题都会变成猜测题。
结论
工作站不是把一张强卡塞进机箱就结束了。对本地推理项目来说,供电规划其实是把实验速度、噪声、可靠性和未来扩展性一次性写进系统的过程。