AI 智能体评测方法研究报告（终稿）

GDPval — 经济价值导向的评测基准

ICLR 2026

OpenAI 发布。评估 AI 在人类监督下能否比无辅助专家更快更便宜地完成真实职业任务。

1320

任务

职业

47.6%

最佳胜平率

66%

自动评审一致率

9 大行业 (按 GDP)

房地产 13.8% · 政府 11.3% · 制造业 10.0% · 专业服务 8.1% · 医疗 7.6% · 金融 7.4% · 零售 6.3% · 批发 5.8% · 信息 5.4%

208 个 O*NET 任务类型 · 26 种工作活动 · 25 种技能 · 均完成时间 9.5h

评测方法

1. 筛专家（<10% 通过，平均 14 年）
2. 对齐 O*NET，68% 附参考文件
3. 交付物：Word/PPT/Excel/代码/CAD
4. 盲评成对比较（每次 >1h）
5. 同时考虑：结构·风格·格式·美观度·相关性

典型题目

制造 · 机械工程师

为采矿设备测试设计线缆卷绕夹具，需提交含 3D 建模的技术文档和 PPT。

法律 · 律师

根据案件材料和判例，撰写完整法律简报，论证己方立场。

医疗 · 注册护士

根据病历和医嘱，制定结构化护理计划——评估、诊断、目标、干预。

金融领域深入（25 题）

投资分析师

金融经理

理财顾问

客服代表

S&P 500 市盈率分析

"鉴于近期市场波动，调查 S&P 500 的 P/E 倍数目前处于什么水平。"

角色：权益分析师 · 交付：市场分析报告

美式期权定价

"为自营交易部门开发完整的 American option pricing framework，用 Python。"

角色：量化分析师 · 交付：Python + 文档

$3 亿能源组合

管理涉及石油/天然气敞口的 $300M 投资组合，做风险评估和配置分析。

角色：量化分析师 · 交付：风险分析+方案

GDPVal Explorer 论文 HuggingFace

金融市场专用评测基准

共同发现：静态金融知识 ≠ 实际交易能力。GPT-5 在 StockBench 上仅 +0.3%，连被动持有（+0.4%）都跑不赢。

StockBench

$10 万起步，82 天，20 只道琼斯股票。每日做买/卖/持有决策。

指标：累计收益、最大回撤、Sortino 比率

最佳 Kimi-K2 仅 +1.9%

TraderBench

四维评测：知识检索 + 分析推理 + 期权交易 + 对抗性加密货币。

四级对抗扰动：干净→噪声→假突破→协同操纵

7/12 模型用固定策略无法适应

InvestorBench + FinBen

InvestorBench：股票/加密/ETF 三类资产。FinBen：36 数据集 24 任务（NeurIPS 2024）。

金融专用微调 ≠ 更好表现

PPT 专用评测基准

PresentBench

238 实例，每题 54 个二元检查项，五维评分。与人类偏好相关度 0.532（人类间 0.664）。

评什么：生成的 PPT 内容和视觉质量

UniPPTBench

126 任务，四种输入场景（模糊提示/长文档/多模态/多源）。

"看起来漂亮" ≠ "做对了"

PPTARENA

评测通过 GUI 操作 PowerPoint Online 来制作 PPT。

Claude-4-Sonnet 仅 43% 成功率

PresentBench 典型题目

教育根据《CS: An Overview》第 1 章制作 21-35 页课件。检查项："每页是否标注来源？""数值是否精确？"

学术将 ICLR/ICML 论文制作成 16-20 页报告。所有内容必须可追溯到源论文。

经济将季度财报转化为演示幻灯片。"$12.3B" 不能写成 "$12B"。最高分仅 58.2。

网页/海报/图表/视频评测

来自 ChatGPT 补充调研

网页 / UI 交付物

Design2Code (2024)：484 个真实网页截图→代码。指标：视觉元素召回、布局生成。

VisualWebBench (2024)：1.5K 样本、139 网站。评估 caption/QA/grounding。

WebGym (2026)：30 万任务，评估 OOD 网站泛化。

评测 pipeline：render → screenshot diff → DOM checker → Playwright → VLM judge → 人类抽样

海报 / 平面设计

GraphicDesignBench (2026)：layout/typography/infographics/animation 评测。

PosterIQ (CVPR 2026)：7,765 标注、822 生成 prompt、24 类任务。

Paper2Poster (2025)：论文→学术海报。PaperQuiz 评估信息传达。

DesignSense-10k (2026)：10,235 偏好对，训练布局 reward model。

通用 VLM 不足以评版式 → 需要专用设计 reward model

数据可视化 / 图表

ChartMimic (ICLR 2025)：1,000 个图表→代码，18 类图表。GPT-4V 约 73.2 分。

VisEval (TVCG 2025)：2,524 个 NL 查询→可视化。覆盖 validity/legality/readability。

从"图像相似"转向"信息是否正确传达"：数据源 checksum → 代码执行 → OCR → chart VQA

视频脚本 / 视频生成

WritingBench (2025)：6 领域、100 子领域、1,000 真实 query。动态生成评分标准。

VBench (CVPR 2024)：16 维度评估视频质量（一致性、流畅度、闪烁等）。

脚本→WritingBench；成片→VBench 层级维度

多模态交付物自动评估五层架构

层级	方法	适用	特点
1. 文件检查	能否打开、格式合法、资源完整	所有类型	便宜确定
2. 像素/视觉相似	SSIM、LPIPS、CLIP、OCR	复刻/修复	惩罚合理替代
3. 结构化布局	对齐、留白、重叠、层级、对比	PPT/海报/网页	可解释
4. 语义/任务对齐	VLM 判断 brief 是否满足	创意设计	VLM 不稳定
5. 信息传达/偏好	quiz、VQA、pairwise、reward model	报告/海报/仪表盘	成本较高

环境交互基准：WebArena / OSWorld / SWE-bench

WebArena · 812 任务

"添加商品 'Yoga Pant'，库存 50，$69.99"

"在 r/books 发《飘》的书评"

"测量 Carnegie Hall 步行到 UPMC 的距离"

评判：页面状态/API 验证

OSWorld · 369 任务

"把背景图层填充为绿色"

"B1:E30 空白单元格用上方值填充"

"第 3 页右对齐，第 4 页居中"

人类 72% vs 模型 12%

SWE-bench · 500 任务

separability_matrix 对嵌套 CompoundModel 计算出错

TimeSeries 必需列检查给出误导性异常

HTML 导出不支持 formats 参数

评判：Fail-to-Pass 测试通过

评测领域选择：三种范式

经济/职业驱动

GDP 贡献率 → 工资排名 → O*NET 任务库。最系统但最贵。

代表：GDPval

能力/环境驱动

先定义能力（网页/桌面/代码），再在对应环境构建任务。

代表：WebArena · OSWorld · SWE-bench

交付物类型驱动

以最终产出（PPT/海报/网页）为中心，按领域分布任务。

代表：PresentBench · UniPPTBench

题目设计方法论

方法一：专家真实工作提取

1. 筛专家（<10%，最低 4 年）
2. 对齐 O*NET，从真实工作提取
3. 附参考文件（68%）
4. 多轮质控 → 盲评成对比较

方法二：评分标准原子化

1. 背景材料 ~34 页 + 具体指令
2. 拆解为平均 54.1 个二元检查项
3. 多模态 LLM 逐项评判+定位证据
4. 五维得分取平均

警示：τ-bench 中"什么都不做"的智能体也能通过 38% 的任务。题目设计必须包含空操作基线检查。

评测指标体系

来自 ChatGPT 补充

结果指标

Success Rate · Completion Rate · State Match · Unit Test Pass · Artifact Validity · Human Win Rate

过程指标

Progress Rate · CheckPoint Score · Grounding Accuracy · Invalid Action Rate · Recovery Rate · Policy Following

效率/稳定性

Step Count · Token Cost · Wall-clock Time · pass^k（连续 k 次都成功）· 跨运行方差 · 重试次数

鲁棒性/安全

Robustness Delta · Collateral Damage · Policy Violation · Permission Violation · Unsafe Action Rate

创意交付物

内容准确 · 信息完整 · 语义对齐 · 视觉质量 · 布局结构 · 字体排版 · 信息传达 · 可编辑性

错误分类法

Perception · Planning · Tool Selection · Parameter · Execution · Recovery · Judgment 七类错误

Agent-as-a-Judge 范式

从单模型评判到多智能体辩论框架。可沿可靠性/成本/人类对齐度三轴比较。

核心局限：只能补充而非替代人类监督。偏差、鲁棒性和元评估仍未解决。

过程评测：ToolPRMBench

不只看最终结果，评估每一步决策质量。

984

样本

96%

验证一致率

~50%

通用 PRM

78.6%

专用 ToolPRM

两种数据构建策略（详解）

离线采样

在正确路径的某一步上让模型走偏，测评判模型能否发现。

指令："列出 documents 里所有 .py 文件"

正确第 1 步：cd documents ✓

正确第 2 步：find . -name "*.py" ✓

保持第 1 步不变，模型重新生成第 2 步：grep -r ".py" ✗ 用错工具

优点：隔离单步决策质量 · 局限：无法捕捉连锁错误

在线采样

让智能体自由执行整个任务，失败后用 LLM 找第一个错误步骤。

指令："把 downloads 图片备份到 external_drive"

模型：cp downloads/*.jpg external_drive ✗ 相对路径

LLM 标注：错误在第 1 步。正确应该用绝对路径

优点：捕捉真实连锁错误 · 局限：LLM 标注可能不准

为什么缺一不可：离线无法测"错误传播"（前面错→后面跟着错）；在线无法隔离"单步判断力"（分不清是本步错还是被前面带偏）。

评判器精度上限：AgentRewardBench

智能体完成任务后，谁来判定成功？人工太贵、规则太死、LLM……精度不超过 70%。

轨迹 = 智能体做任务的完整录像（每步操作+截图+页面状态）。 评判器 = 判定是否成功的方法（人工/规则/LLM 三种）。基准：1302 条专家标注轨迹，5 个来源基准，4 个 LLM，6 名标注员（89.3% 一致率）。

发现 1 精度 <70%（30% 假阳性）

案例：用户要"买最便宜的卡通麦片"，智能体找到了正确商品（Cocoa Puffs）但没执行购买就停了。LLM 判定"成功"。

案例：任务是"显示第二行第二列商品"，智能体点错了位置但推理文本声称自己找对了。LLM 被误导。

发现 2 规则召回仅 55.9%（漏一半）

案例：问"缅因州最大城市最近的国家公园"，智能体正确答了"Acadia"，但格式是"距离 Portland 最近的是 Acadia"——规则要求精确匹配字符串，判为失败。

精度/召回对比：GPT-4o 简化版 69.8%/83.1% · AER-C 67.7%/71.9% · 规则 83.8%/55.9% · 最佳实践：规则筛确定成功 → LLM 审查规则判失败的 → 人工抽查 LLM 判成功的。

人评降本方案

来自 ChatGPT 补充

代表性方法

MAD (ACL 2025)：自动选最能区分模型的 instruction，让人做三选一，用 Elo 聚合。用更少样本得到稳定排名。

Active Evaluation：学习样本选择策略，从 benchmark 中挑最有信息量的子集，预测其余结果。

Chatbot Arena (ICML 2024)：匿名 pairwise 众包投票，240K+ 票，证明低成本排名可行。

CLAVE (NeurIPS 2024)：每个价值类型仅需 <100 个标注样本完成校准。

端到端评测框架选型

来自 ChatGPT 补充

不只是数据集——能启动环境、运行 Agent、记录轨迹、计算指标、回放失败。

框架	场景	核心能力	一站式？
BrowserGym + AgentLab	Web Agent	Gym-like 网页环境，整合多种 benchmark	很接近
Inspect AI	通用 Agent/工具/安全	UK AI 安全研究所，dataset/solver/tool/scorer 标准化	很接近
AppWorld	多 App API	9 个 App、457 API、750 任务、state-based unit tests	是
τ-bench	工具+多轮对话	动态用户模拟、领域政策、pass^k 可靠性	是
AgentBoard	多轮 Agent	9 类任务、1013 环境、progress rate	偏研究
LangSmith / AgentEvals	生产 trace	轨迹匹配、LLM judge、在线监控、回归	工程实用

中文/非英语智能体评测

已有基准

CToolEval (ACL 2024)：27 个中国常用 App、398 API、14 领域。中文真实 API 调用。

BrowseComp-ZH (2025)：289 个中文多跳网页问题。最好系统仅 42.9%。

GUI-CEval (CVPR 2026)：201 个中文 App、4 类设备、4194 个 QA + 4028 个 Agent 任务。

MobileBench-OL (2026)：80 个中文 App、1080 个任务。距真实可用仍有明显差距。

关键空白

中文办公软件：WPS、飞书文档、钉钉文档、腾讯文档

中文企业流程：报销、审批、CRM、工单、知识库

中文创意交付物：公众号封面、小红书图文、中文海报/PPT

中文政企：政策解读、招投标、项目申报

生产落地案例

Anthropic (2026)

eval 拆成 task/trial/transcript/grade。Agent eval 必须看完整轨迹。

LangChain (2026)

code-based 评客观、LLM judge 评主观、人工处理模糊。partial credit + 多次试跑。

Browser Use (2026)

Web Agent 的 scalable LLM-as-judge 基础设施。处理高方差和网页变化。

共识：① 先定评测集再扩能力 ② 所有运行都有 trace ③ 失败自动回流 regression ④ 客观 deterministic、主观 LLM+人类校准 ⑤ 每次更新都跑回归 ⑥ 不能只看最终答案

参考来源

评测基准

FinBen (NeurIPS 2024)

WebArena

OSWorld (NeurIPS 2024)

SWE-bench (ICLR 2024)

方法论与评判

ToolPRMBench

AgentRewardBench

Agent-as-a-Judge

LLM Agent Eval Survey (KDD)

多模态 / 设计

Design2Code (2024) · VisualWebBench

GraphicDesignBench · PosterIQ (CVPR 2026)

Paper2Poster · DesignSense-10k

ChartMimic (ICLR 2025) · VisEval

WritingBench · VBench (CVPR 2024)

框架与中文

BrowserGym + AgentLab · Inspect AI

AppWorld (ACL 2024) · τ-bench

AgentBoard (NeurIPS 2024)

LangSmith / AgentEvals

CToolEval · BrowseComp-ZH

GUI-CEval (CVPR 2026) · MobileBench-OL

生产实践

Anthropic: Demystifying evals (2026)

LangChain: Agent Eval Checklist (2026)

Browser Use: LLM-as-Judge Infra (2026)

OpenAI Cookbook + Langfuse (2025)

MAD (ACL 2025) · CLAVE (NeurIPS 2024)

Chatbot Arena (ICML 2024)

Claude Deep Research（103 子智能体，13.5 分钟） + ChatGPT 补充调研 · 对抗性验证：24 确认 / 1 淘汰 · 更新：2026-07-01

GDPval — 经济价值导向的评测基准

9 大行业 (按 GDP)

评测方法

典型题目

金融领域深入（25 题）

金融市场专用评测基准

StockBench

TraderBench

InvestorBench + FinBen

PPT 专用评测基准

PresentBench

UniPPTBench

PPTARENA

PresentBench 典型题目

网页/海报/图表/视频评测

网页 / UI 交付物

海报 / 平面设计

数据可视化 / 图表

视频脚本 / 视频生成

多模态交付物自动评估五层架构

环境交互基准：WebArena / OSWorld / SWE-bench

WebArena · 812 任务

OSWorld · 369 任务

SWE-bench · 500 任务

评测领域选择：三种范式

经济/职业驱动

能力/环境驱动

交付物类型驱动

题目设计方法论

方法一：专家真实工作提取

方法二：评分标准原子化

评测指标体系

结果指标

过程指标

效率/稳定性

鲁棒性/安全

创意交付物

错误分类法

Agent-as-a-Judge 范式

过程评测：ToolPRMBench

两种数据构建策略（详解）

离线采样

在线采样

评判器精度上限：AgentRewardBench

人评降本方案

代表性方法

推荐四阶段流程

端到端评测框架选型

中文/非英语智能体评测

已有基准

关键空白

生产落地案例

推荐评测体系架构

维度一：任务环境

维度二：评测对象

维度三：评分方式

最小可用版本（MVP）

参考来源