Skip to content
HardMind
Go back
Technical Discussion

做边缘推理评测时,先把基线方法定住

Edit content

没有统一方法的 benchmark 只会制造噪声,不能帮助团队做设备或模型决策。

边缘推理设备的 benchmark 很多,但真正能拿来指导项目的 benchmark 很少。问题不在数据少,而在方法不统一。输入分辨率、batch、预处理位置、热稳态时间,只要有一项没对齐,表格就失去比较意义。

先固定四个基线条件

建议每次评测都先固定下面四项:

  • 输入数据与分辨率。
  • 前后处理是否计入总延迟。
  • 持续运行多长时间后再开始采样。
  • 使用单流还是多流并发。

没有这四项,任何“提升百分之多少”的结论都很危险。

关注稳态,不要只看峰值

边缘设备特别容易出现短时间表现很好、长时间运行却开始降频的情况。对真正要部署的系统,稳态延迟、稳态功耗和热平衡后的吞吐更重要。评测时至少要把热稳态和冷启动分开记录。

记录失败样本比记录均值更重要

很多模型在平均表现上看起来不错,但在少数复杂场景上会出现极端波动。对于摄像头、机器人、边缘盒子这类系统,单次长尾失败往往比均值更能决定系统可用性。

评测表应该服务于下一步选择

一张好的 benchmark 表,不是为了放到汇报里,而是为了回答下面的问题:

  • 要不要换板卡。
  • 要不要换模型结构。
  • 是先优化预处理,还是先优化推理主干。
  • 是否已经接近热设计边界。

结论

边缘 benchmark 的目标不是证明自己快,而是缩小下一轮决策的不确定性。方法先统一,再谈结论,这比堆更多跑分截图更有价值。

Previous Post
从模型到 FPGA 原型,小团队怎么搭最快验证闭环
Next Post
CXL 进入 AI 训练节点之后,哪些设计假设会失效