做边缘推理评测时，先把基线方法定住

边缘推理设备的 benchmark 很多，但真正能拿来指导项目的 benchmark 很少。问题不在数据少，而在方法不统一。输入分辨率、batch、预处理位置、热稳态时间，只要有一项没对齐，表格就失去比较意义。

先固定四个基线条件

建议每次评测都先固定下面四项：

没有这四项，任何“提升百分之多少”的结论都很危险。

边缘设备特别容易出现短时间表现很好、长时间运行却开始降频的情况。对真正要部署的系统，稳态延迟、稳态功耗和热平衡后的吞吐更重要。评测时至少要把热稳态和冷启动分开记录。

很多模型在平均表现上看起来不错，但在少数复杂场景上会出现极端波动。对于摄像头、机器人、边缘盒子这类系统，单次长尾失败往往比均值更能决定系统可用性。

一张好的 benchmark 表，不是为了放到汇报里，而是为了回答下面的问题：

边缘 benchmark 的目标不是证明自己快，而是缩小下一轮决策的不确定性。方法先统一，再谈结论，这比堆更多跑分截图更有价值。