AI 智能体评测研究报告(终稿)

| 2024-2026 · Claude Deep Research + ChatGPT 补充调研 · 30+ 来源
ICLR/NeurIPS/KDD/CVPR/ACL

GDPval — 经济价值导向的评测基准

ICLR 2026

OpenAI 发布。评估 AI 在人类监督下能否比无辅助专家更快更便宜地完成真实职业任务。

1320
任务
44
职业
47.6%
最佳胜平率
66%
自动评审一致率

9 大行业 (按 GDP)

房地产 13.8% · 政府 11.3% · 制造业 10.0% · 专业服务 8.1% · 医疗 7.6% · 金融 7.4% · 零售 6.3% · 批发 5.8% · 信息 5.4%
208 个 O*NET 任务类型 · 26 种工作活动 · 25 种技能 · 均完成时间 9.5h

评测方法

  1. 1. 筛专家(<10% 通过,平均 14 年)
  2. 2. 对齐 O*NET,68% 附参考文件
  3. 3. 交付物:Word/PPT/Excel/代码/CAD
  4. 4. 盲评成对比较(每次 >1h)
  5. 5. 同时考虑:结构·风格·格式·美观度·相关性

典型题目

制造 · 机械工程师

为采矿设备测试设计线缆卷绕夹具,需提交含 3D 建模的技术文档和 PPT。

法律 · 律师

根据案件材料和判例,撰写完整法律简报,论证己方立场。

医疗 · 注册护士

根据病历和医嘱,制定结构化护理计划——评估、诊断、目标、干预。

金融领域深入(25 题)

5
投资分析师
5
金融经理
5
理财顾问
5
客服代表
S&P 500 市盈率分析

"鉴于近期市场波动,调查 S&P 500 的 P/E 倍数目前处于什么水平。"

角色:权益分析师 · 交付:市场分析报告
美式期权定价

"为自营交易部门开发完整的 American option pricing framework,用 Python。"

角色:量化分析师 · 交付:Python + 文档
$3 亿能源组合

管理涉及石油/天然气敞口的 $300M 投资组合,做风险评估和配置分析。

角色:量化分析师 · 交付:风险分析+方案

金融市场专用评测基准

共同发现:静态金融知识 ≠ 实际交易能力。GPT-5 在 StockBench 上仅 +0.3%,连被动持有(+0.4%)都跑不赢。

StockBench

$10 万起步,82 天,20 只道琼斯股票。每日做买/卖/持有决策。

指标:累计收益、最大回撤、Sortino 比率

最佳 Kimi-K2 仅 +1.9%

TraderBench

四维评测:知识检索 + 分析推理 + 期权交易 + 对抗性加密货币。

四级对抗扰动:干净→噪声→假突破→协同操纵

7/12 模型用固定策略无法适应

InvestorBench + FinBen

InvestorBench:股票/加密/ETF 三类资产。FinBen:36 数据集 24 任务(NeurIPS 2024)。

金融专用微调 ≠ 更好表现

PPT 专用评测基准

PresentBench

238 实例,每题 54 个二元检查项,五维评分。与人类偏好相关度 0.532(人类间 0.664)。

评什么:生成的 PPT 内容和视觉质量

UniPPTBench

126 任务,四种输入场景(模糊提示/长文档/多模态/多源)。

"看起来漂亮" ≠ "做对了"

PPTARENA

评测通过 GUI 操作 PowerPoint Online 来制作 PPT。

Claude-4-Sonnet 仅 43% 成功率

PresentBench 典型题目

教育 根据《CS: An Overview》第 1 章制作 21-35 页课件。检查项:"每页是否标注来源?""数值是否精确?"
学术 将 ICLR/ICML 论文制作成 16-20 页报告。所有内容必须可追溯到源论文。
经济 将季度财报转化为演示幻灯片。"$12.3B" 不能写成 "$12B"。最高分仅 58.2。

网页/海报/图表/视频评测

来自 ChatGPT 补充调研

网页 / UI 交付物

Design2Code (2024):484 个真实网页截图→代码。指标:视觉元素召回、布局生成。
VisualWebBench (2024):1.5K 样本、139 网站。评估 caption/QA/grounding。
WebGym (2026):30 万任务,评估 OOD 网站泛化。
评测 pipeline:render → screenshot diff → DOM checker → Playwright → VLM judge → 人类抽样

海报 / 平面设计

GraphicDesignBench (2026):layout/typography/infographics/animation 评测。
PosterIQ (CVPR 2026):7,765 标注、822 生成 prompt、24 类任务。
Paper2Poster (2025):论文→学术海报。PaperQuiz 评估信息传达。
DesignSense-10k (2026):10,235 偏好对,训练布局 reward model。
通用 VLM 不足以评版式 → 需要专用设计 reward model

数据可视化 / 图表

ChartMimic (ICLR 2025):1,000 个图表→代码,18 类图表。GPT-4V 约 73.2 分。
VisEval (TVCG 2025):2,524 个 NL 查询→可视化。覆盖 validity/legality/readability。
从"图像相似"转向"信息是否正确传达":数据源 checksum → 代码执行 → OCR → chart VQA

视频脚本 / 视频生成

WritingBench (2025):6 领域、100 子领域、1,000 真实 query。动态生成评分标准。
VBench (CVPR 2024):16 维度评估视频质量(一致性、流畅度、闪烁等)。
脚本→WritingBench;成片→VBench 层级维度

多模态交付物自动评估五层架构

层级方法适用特点
1. 文件检查能否打开、格式合法、资源完整所有类型便宜确定
2. 像素/视觉相似SSIM、LPIPS、CLIP、OCR复刻/修复惩罚合理替代
3. 结构化布局对齐、留白、重叠、层级、对比PPT/海报/网页可解释
4. 语义/任务对齐VLM 判断 brief 是否满足创意设计VLM 不稳定
5. 信息传达/偏好quiz、VQA、pairwise、reward model报告/海报/仪表盘成本较高

环境交互基准:WebArena / OSWorld / SWE-bench

WebArena · 812 任务

"添加商品 'Yoga Pant',库存 50,$69.99"
"在 r/books 发《飘》的书评"
"测量 Carnegie Hall 步行到 UPMC 的距离"
评判:页面状态/API 验证

OSWorld · 369 任务

"把背景图层填充为绿色"
"B1:E30 空白单元格用上方值填充"
"第 3 页右对齐,第 4 页居中"
人类 72% vs 模型 12%

SWE-bench · 500 任务

separability_matrix 对嵌套 CompoundModel 计算出错
TimeSeries 必需列检查给出误导性异常
HTML 导出不支持 formats 参数
评判:Fail-to-Pass 测试通过

评测领域选择:三种范式

经济/职业驱动

GDP 贡献率 → 工资排名 → O*NET 任务库。最系统但最贵。

代表:GDPval

能力/环境驱动

先定义能力(网页/桌面/代码),再在对应环境构建任务。

代表:WebArena · OSWorld · SWE-bench

交付物类型驱动

以最终产出(PPT/海报/网页)为中心,按领域分布任务。

代表:PresentBench · UniPPTBench

题目设计方法论

方法一:专家真实工作提取

  1. 1. 筛专家(<10%,最低 4 年)
  2. 2. 对齐 O*NET,从真实工作提取
  3. 3. 附参考文件(68%)
  4. 4. 多轮质控 → 盲评成对比较

方法二:评分标准原子化

  1. 1. 背景材料 ~34 页 + 具体指令
  2. 2. 拆解为平均 54.1 个二元检查项
  3. 3. 多模态 LLM 逐项评判+定位证据
  4. 4. 五维得分取平均
警示:τ-bench 中"什么都不做"的智能体也能通过 38% 的任务。题目设计必须包含空操作基线检查。

评测指标体系

来自 ChatGPT 补充

结果指标

Success Rate · Completion Rate · State Match · Unit Test Pass · Artifact Validity · Human Win Rate

过程指标

Progress Rate · CheckPoint Score · Grounding Accuracy · Invalid Action Rate · Recovery Rate · Policy Following

效率/稳定性

Step Count · Token Cost · Wall-clock Time · pass^k(连续 k 次都成功)· 跨运行方差 · 重试次数

鲁棒性/安全

Robustness Delta · Collateral Damage · Policy Violation · Permission Violation · Unsafe Action Rate

创意交付物

内容准确 · 信息完整 · 语义对齐 · 视觉质量 · 布局结构 · 字体排版 · 信息传达 · 可编辑性

错误分类法

Perception · Planning · Tool Selection · Parameter · Execution · Recovery · Judgment 七类错误

Agent-as-a-Judge 范式

从单模型评判到多智能体辩论框架。可沿可靠性/成本/人类对齐度三轴比较。

核心局限:只能补充而非替代人类监督。偏差、鲁棒性和元评估仍未解决。

过程评测:ToolPRMBench

不只看最终结果,评估每一步决策质量。

984
样本
96%
验证一致率
~50%
通用 PRM
78.6%
专用 ToolPRM

两种数据构建策略(详解)

离线采样

正确路径的某一步上让模型走偏,测评判模型能否发现。

指令:"列出 documents 里所有 .py 文件"
正确第 1 步:cd documents
正确第 2 步:find . -name "*.py"
保持第 1 步不变,模型重新生成第 2 步:grep -r ".py" ✗ 用错工具
优点:隔离单步决策质量 · 局限:无法捕捉连锁错误

在线采样

让智能体自由执行整个任务,失败后用 LLM 找第一个错误步骤。

指令:"把 downloads 图片备份到 external_drive"
模型:cp downloads/*.jpg external_drive ✗ 相对路径
LLM 标注:错误在第 1 步。正确应该用绝对路径
优点:捕捉真实连锁错误 · 局限:LLM 标注可能不准
为什么缺一不可:离线无法测"错误传播"(前面错→后面跟着错);在线无法隔离"单步判断力"(分不清是本步错还是被前面带偏)。

评判器精度上限:AgentRewardBench

智能体完成任务后,谁来判定成功?人工太贵、规则太死、LLM……精度不超过 70%。

轨迹 = 智能体做任务的完整录像(每步操作+截图+页面状态)。 评判器 = 判定是否成功的方法(人工/规则/LLM 三种)。 基准:1302 条专家标注轨迹,5 个来源基准,4 个 LLM,6 名标注员(89.3% 一致率)。
发现 1 精度 <70%(30% 假阳性)
案例:用户要"买最便宜的卡通麦片",智能体找到了正确商品(Cocoa Puffs)但没执行购买就停了。LLM 判定"成功"。
案例:任务是"显示第二行第二列商品",智能体点错了位置但推理文本声称自己找对了。LLM 被误导。
发现 2 规则召回仅 55.9%(漏一半)
案例:问"缅因州最大城市最近的国家公园",智能体正确答了"Acadia",但格式是"距离 Portland 最近的是 Acadia"——规则要求精确匹配字符串,判为失败
精度/召回对比:GPT-4o 简化版 69.8%/83.1% · AER-C 67.7%/71.9% · 规则 83.8%/55.9% · 最佳实践:规则筛确定成功 → LLM 审查规则判失败的 → 人工抽查 LLM 判成功的。

人评降本方案

来自 ChatGPT 补充

代表性方法

MAD (ACL 2025):自动选最能区分模型的 instruction,让人做三选一,用 Elo 聚合。用更少样本得到稳定排名。
Active Evaluation:学习样本选择策略,从 benchmark 中挑最有信息量的子集,预测其余结果。
Chatbot Arena (ICML 2024):匿名 pairwise 众包投票,240K+ 票,证明低成本排名可行。
CLAVE (NeurIPS 2024):每个价值类型仅需 <100 个标注样本完成校准。

推荐四阶段流程

1. 全量硬检查:文件可打开、代码能跑、数据一致、链接有效
2. LLM/VLM 初评:按 rubric 分维度评分、多 judge 投票
3. 主动抽样进人评:judge 分歧大 ∪ 高价值任务 ∪ 历史常错类型
4. 专家仲裁+反向校准:专家结论校准 judge,失败案例进回归集
1000 题 → 1000 自动初评 → 100-200 高分歧 → 50-100 专家评 → 10-20 进 gold set

端到端评测框架选型

来自 ChatGPT 补充

不只是数据集——能启动环境、运行 Agent、记录轨迹、计算指标、回放失败。

框架场景核心能力一站式?
BrowserGym + AgentLabWeb AgentGym-like 网页环境,整合多种 benchmark很接近
Inspect AI通用 Agent/工具/安全UK AI 安全研究所,dataset/solver/tool/scorer 标准化很接近
AppWorld多 App API9 个 App、457 API、750 任务、state-based unit tests
τ-bench工具+多轮对话动态用户模拟、领域政策、pass^k 可靠性
AgentBoard多轮 Agent9 类任务、1013 环境、progress rate偏研究
LangSmith / AgentEvals生产 trace轨迹匹配、LLM judge、在线监控、回归工程实用

中文/非英语智能体评测

已有基准

CToolEval (ACL 2024):27 个中国常用 App、398 API、14 领域。中文真实 API 调用。
BrowseComp-ZH (2025):289 个中文多跳网页问题。最好系统仅 42.9%。
GUI-CEval (CVPR 2026):201 个中文 App、4 类设备、4194 个 QA + 4028 个 Agent 任务。
MobileBench-OL (2026):80 个中文 App、1080 个任务。距真实可用仍有明显差距。

关键空白

中文办公软件:WPS、飞书文档、钉钉文档、腾讯文档
中文企业流程:报销、审批、CRM、工单、知识库
中文创意交付物:公众号封面、小红书图文、中文海报/PPT
中文政企:政策解读、招投标、项目申报

生产落地案例

Anthropic (2026)

eval 拆成 task/trial/transcript/grade。Agent eval 必须看完整轨迹。

LangChain (2026)

code-based 评客观、LLM judge 评主观、人工处理模糊。partial credit + 多次试跑。

Browser Use (2026)

Web Agent 的 scalable LLM-as-judge 基础设施。处理高方差和网页变化。

共识:① 先定评测集再扩能力 ② 所有运行都有 trace ③ 失败自动回流 regression ④ 客观 deterministic、主观 LLM+人类校准 ⑤ 每次更新都跑回归 ⑥ 不能只看最终答案

推荐评测体系架构

维度一:任务环境

Web · Desktop · API · Mobile · Code · Office · Creative · 中文本地化

维度二:评测对象

结果 · 过程 · 工具调用 · 环境状态 · 交付物 · 安全合规 · 成本效率

维度三:评分方式

规则 · 状态 · 单元测试 · VLM judge · LLM judge · reward model · 人类偏好 · 专家仲裁
┌─────────────────────────────┐
│       Task Registry          │  gold / regression / live / adversarial
└──────────────┬──────────────┘
┌──────────────▼──────────────┐
│      Environment Layer       │  browser / desktop / api / sandbox / mobile
└──────────────┬──────────────┘
┌──────────────▼──────────────┐
│        Agent Runner          │  model / prompt / tools / multi-run / pass^k
└──────────────┬──────────────┘
┌──────────────▼──────────────┐
│         Trace Store          │  obs / action / tool call / cost / artifacts
└──────────────┬──────────────┘
┌──────────────▼──────────────┐
│        Scoring Layer         │  rules / state / unit test / LLM / VLM / reward / human
└──────────────┬──────────────┘
┌──────────────▼──────────────┐
│     Analysis Dashboard       │  metrics / errors / replay / release gate / trend
└─────────────────────────────┘

最小可用版本(MVP)

1. 任务定义
task_id · instruction · environment · tools · expected · rubric · tags
2. 运行器
Agent adapter · 多次运行 · 完整 trace · 中间 artifact
3. 评分器
deterministic · state · artifact · LLM/VLM rubric · human queue
4. 报告
success · progress · cost · pass^k · error taxonomy · replay

参考来源

方法论与评判
多模态 / 设计
Design2Code (2024) · VisualWebBench
GraphicDesignBench · PosterIQ (CVPR 2026)
Paper2Poster · DesignSense-10k
ChartMimic (ICLR 2025) · VisEval
WritingBench · VBench (CVPR 2024)
框架与中文
BrowserGym + AgentLab · Inspect AI
AppWorld (ACL 2024) · τ-bench
AgentBoard (NeurIPS 2024)
LangSmith / AgentEvals
CToolEval · BrowseComp-ZH
GUI-CEval (CVPR 2026) · MobileBench-OL
生产实践
Anthropic: Demystifying evals (2026)
LangChain: Agent Eval Checklist (2026)
Browser Use: LLM-as-Judge Infra (2026)
OpenAI Cookbook + Langfuse (2025)
MAD (ACL 2025) · CLAVE (NeurIPS 2024)
Chatbot Arena (ICML 2024)
Claude Deep Research(103 子智能体,13.5 分钟) + ChatGPT 补充调研 · 对抗性验证:24 确认 / 1 淘汰 · 更新:2026-07-01