当前智能体(agent)基准测试确实远未达到“可靠”状态,而且问题比大多数人想象的更严重。
问题现状:现有基准测试的“系统性失效”
什么都不做也能得分
在 τ-bench(一个航班任务基准)中,一个完全不执行任何操作的智能体竟被判为38%准确率;WebArena 中,智能体给出的错误时间被误判为正确。
误判率高达100%
一项由 MIT、斯坦福、伯克利等 10 余家机构联合完成的研究发现:
在 10 个主流智能体基准中,有 8 个存在严重失效模式,部分任务对智能体能力的误判率可达100% 。
任务设计漏洞百出
缺乏标准答案(如网页导航、家具组装);
评估逻辑可被“投机取巧”绕过;
多轮、多智能体协作场景几乎未被有效覆盖。
解决方向:如何构建“可信的智能体基准”
任务设计必须“防刷”
研究者提出一份包含 43 项检查清单(ABC),用于确保任务和评估逻辑无法被轻易绕过。
引入“可靠性三轴评估”
时间维度:训练过程中的稳定性;
运行维度:跨随机种子的一致性;
回放维度:固定策略在环境扰动下的鲁棒性。
多维度综合评估框架
如 A2Perf 提出的四类指标:
数据成本(是否依赖专家演示)
应用性能(任务完成质量)
系统性能(能耗、延迟)
可靠性(跨场景一致性)
动态评估机制
不再用静态数据集,而是引入多轮交互、多智能体协作、实时人类反馈等动态场景。
一句话总结
当前智能体基准测试“考卷”出了问题,导致“考生”分数虚高、能力误判,亟需从任务设计、评估逻辑、可靠性指标和系统成本四方面重构评估体系,否则我们永远无法真正知道一个智能体在现实世界中是否“能用”。
Tags:智能体基准测试