Skip to content
HardMind
Go back
Technical Discussion

本地推理工作站的供电规划,比显卡型号更容易踩坑

Edit content

预算本地推理工作站时,真正容易把项目拖慢的往往不是 GPU,而是供电、散热和扩展余量。

很多团队搭本地推理工作站,精力都花在选 GPU,最后却死在供电和散热上。机器能亮机,不代表能在高负载下稳定跑一周。只要电源、机箱风道和线材规划没有前置,后面的问题会源源不断。

首先确认真实功耗窗口

本地推理并不总是满载,但峰值和稳态都要算。建议至少分别估算:

  • 冷启动与加载模型时的瞬时功耗。
  • 连续推理 30 分钟后的稳态功耗。
  • 多卡或外设同时工作时的总线和电源压力。

如果只拿 TDP 估算,结果通常会偏乐观。

供电余量不是浪费

对长期运行的工作站,电源不要只按“够用”来配。合理的余量能换来更稳定的效率区间、更低的噪声和更低的故障率。尤其当项目会逐步增加采集卡、NVMe、网卡或第二张加速卡时,供电规划必须一步到位。

风道与布线会影响稳定性

实验室里最容易被忽略的是布线和风道。线材挡风、进风口受限、机箱静压不够,这些问题在短跑 benchmark 里不明显,但在长时间推理时会逐渐放大,最后表现成随机降频或系统重启。

不要忽略供电可观测性

一台工作站至少应该能让你看到输入功率、热点温度、风扇策略和异常日志。没有可观测性,任何稳定性问题都会变成猜测题。

结论

工作站不是把一张强卡塞进机箱就结束了。对本地推理项目来说,供电规划其实是把实验速度、噪声、可靠性和未来扩展性一次性写进系统的过程。

Previous Post
CXL 进入 AI 训练节点之后,哪些设计假设会失效
Next Post
把实验记录做成资产:硬件 AI 团队的日志规范