现有的智能体基准测试并没有达到一个可靠的状态 - 综合频道

当前智能体（agent）基准测试确实远未达到“可靠”状态，而且问题比大多数人想象的更严重。

问题现状：现有基准测试的“系统性失效”

什么都不做也能得分

在 τ-bench（一个航班任务基准）中，一个完全不执行任何操作的智能体竟被判为38%准确率；WebArena 中，智能体给出的错误时间被误判为正确。

误判率高达100%

一项由 MIT、斯坦福、伯克利等 10 余家机构联合完成的研究发现：

在 10 个主流智能体基准中，有 8 个存在严重失效模式，部分任务对智能体能力的误判率可达100% 。

任务设计漏洞百出

缺乏标准答案（如网页导航、家具组装）；

评估逻辑可被“投机取巧”绕过；

多轮、多智能体协作场景几乎未被有效覆盖。

解决方向：如何构建“可信的智能体基准”

任务设计必须“防刷”

研究者提出一份包含 43 项检查清单（ABC），用于确保任务和评估逻辑无法被轻易绕过。

引入“可靠性三轴评估”

时间维度：训练过程中的稳定性；

运行维度：跨随机种子的一致性；

回放维度：固定策略在环境扰动下的鲁棒性。

多维度综合评估框架

如 A2Perf 提出的四类指标：

数据成本（是否依赖专家演示）

应用性能（任务完成质量）

系统性能（能耗、延迟）

可靠性（跨场景一致性）

动态评估机制

不再用静态数据集，而是引入多轮交互、多智能体协作、实时人类反馈等动态场景。

一句话总结

当前智能体基准测试“考卷”出了问题，导致“考生”分数虚高、能力误判，亟需从任务设计、评估逻辑、可靠性指标和系统成本四方面重构评估体系，否则我们永远无法真正知道一个智能体在现实世界中是否“能用”。

Tags：智能体基准测试