如果实验室还没有稳定的可观测栈,那么接下来新增多少模型、板卡或工具,排障成本都会按倍数增长。这个条目进热门,是因为它应该是大多数团队尽快补上的基础设施。
最小可观测栈应该包含什么
- 运行时日志,能记录关键错误、告警和回退。
- 性能观测,至少包含延迟、吞吐和关键阶段耗时。
- 设备观测,至少包含温度、功耗和频率变化。
- 版本映射,能把一次结果追溯到模型、驱动和固件版本。
为什么现在要做
在项目早期把观测链路搭起来,收益远高于等问题多了再补。后补的系统通常更重、更乱,而且很难覆盖历史结果。
HDRP 判断
如果团队只打算优先补一个基础设施方向,那应该优先补观测,而不是先堆更多 benchmark。因为没有观测,benchmark 只会积累数字,不会积累解释力。