边缘推理设备的 benchmark 很多,但真正能拿来指导项目的 benchmark 很少。问题不在数据少,而在方法不统一。输入分辨率、batch、预处理位置、热稳态时间,只要有一项没对齐,表格就失去比较意义。
先固定四个基线条件
建议每次评测都先固定下面四项:
- 输入数据与分辨率。
- 前后处理是否计入总延迟。
- 持续运行多长时间后再开始采样。
- 使用单流还是多流并发。
没有这四项,任何“提升百分之多少”的结论都很危险。
关注稳态,不要只看峰值
边缘设备特别容易出现短时间表现很好、长时间运行却开始降频的情况。对真正要部署的系统,稳态延迟、稳态功耗和热平衡后的吞吐更重要。评测时至少要把热稳态和冷启动分开记录。
记录失败样本比记录均值更重要
很多模型在平均表现上看起来不错,但在少数复杂场景上会出现极端波动。对于摄像头、机器人、边缘盒子这类系统,单次长尾失败往往比均值更能决定系统可用性。
评测表应该服务于下一步选择
一张好的 benchmark 表,不是为了放到汇报里,而是为了回答下面的问题:
- 要不要换板卡。
- 要不要换模型结构。
- 是先优化预处理,还是先优化推理主干。
- 是否已经接近热设计边界。
结论
边缘 benchmark 的目标不是证明自己快,而是缩小下一轮决策的不确定性。方法先统一,再谈结论,这比堆更多跑分截图更有价值。