GDPval — 经济价值导向的评测基准
ICLR 2026OpenAI 发布。评估 AI 在人类监督下能否比无辅助专家更快更便宜地完成真实职业任务。
9 大行业 (按 GDP)
评测方法
- 1. 筛专家(<10% 通过,平均 14 年)
- 2. 对齐 O*NET,68% 附参考文件
- 3. 交付物:Word/PPT/Excel/代码/CAD
- 4. 盲评成对比较(每次 >1h)
- 5. 同时考虑:结构·风格·格式·美观度·相关性
典型题目
为采矿设备测试设计线缆卷绕夹具,需提交含 3D 建模的技术文档和 PPT。
根据案件材料和判例,撰写完整法律简报,论证己方立场。
根据病历和医嘱,制定结构化护理计划——评估、诊断、目标、干预。
金融领域深入(25 题)
"鉴于近期市场波动,调查 S&P 500 的 P/E 倍数目前处于什么水平。"
"为自营交易部门开发完整的 American option pricing framework,用 Python。"
管理涉及石油/天然气敞口的 $300M 投资组合,做风险评估和配置分析。
金融市场专用评测基准
共同发现:静态金融知识 ≠ 实际交易能力。GPT-5 在 StockBench 上仅 +0.3%,连被动持有(+0.4%)都跑不赢。
StockBench
$10 万起步,82 天,20 只道琼斯股票。每日做买/卖/持有决策。
指标:累计收益、最大回撤、Sortino 比率
最佳 Kimi-K2 仅 +1.9%
TraderBench
四维评测:知识检索 + 分析推理 + 期权交易 + 对抗性加密货币。
四级对抗扰动:干净→噪声→假突破→协同操纵
7/12 模型用固定策略无法适应
InvestorBench + FinBen
InvestorBench:股票/加密/ETF 三类资产。FinBen:36 数据集 24 任务(NeurIPS 2024)。
金融专用微调 ≠ 更好表现
PPT 专用评测基准
PresentBench
238 实例,每题 54 个二元检查项,五维评分。与人类偏好相关度 0.532(人类间 0.664)。
UniPPTBench
126 任务,四种输入场景(模糊提示/长文档/多模态/多源)。
PPTARENA
评测通过 GUI 操作 PowerPoint Online 来制作 PPT。
PresentBench 典型题目
网页/海报/图表/视频评测
来自 ChatGPT 补充调研网页 / UI 交付物
海报 / 平面设计
数据可视化 / 图表
视频脚本 / 视频生成
多模态交付物自动评估五层架构
| 层级 | 方法 | 适用 | 特点 |
|---|---|---|---|
| 1. 文件检查 | 能否打开、格式合法、资源完整 | 所有类型 | 便宜确定 |
| 2. 像素/视觉相似 | SSIM、LPIPS、CLIP、OCR | 复刻/修复 | 惩罚合理替代 |
| 3. 结构化布局 | 对齐、留白、重叠、层级、对比 | PPT/海报/网页 | 可解释 |
| 4. 语义/任务对齐 | VLM 判断 brief 是否满足 | 创意设计 | VLM 不稳定 |
| 5. 信息传达/偏好 | quiz、VQA、pairwise、reward model | 报告/海报/仪表盘 | 成本较高 |
环境交互基准:WebArena / OSWorld / SWE-bench
WebArena · 812 任务
OSWorld · 369 任务
SWE-bench · 500 任务
separability_matrix 对嵌套 CompoundModel 计算出错formats 参数评测领域选择:三种范式
经济/职业驱动
GDP 贡献率 → 工资排名 → O*NET 任务库。最系统但最贵。
能力/环境驱动
先定义能力(网页/桌面/代码),再在对应环境构建任务。
交付物类型驱动
以最终产出(PPT/海报/网页)为中心,按领域分布任务。
题目设计方法论
方法一:专家真实工作提取
- 1. 筛专家(<10%,最低 4 年)
- 2. 对齐 O*NET,从真实工作提取
- 3. 附参考文件(68%)
- 4. 多轮质控 → 盲评成对比较
方法二:评分标准原子化
- 1. 背景材料 ~34 页 + 具体指令
- 2. 拆解为平均 54.1 个二元检查项
- 3. 多模态 LLM 逐项评判+定位证据
- 4. 五维得分取平均
评测指标体系
来自 ChatGPT 补充结果指标
过程指标
效率/稳定性
鲁棒性/安全
创意交付物
错误分类法
Agent-as-a-Judge 范式
从单模型评判到多智能体辩论框架。可沿可靠性/成本/人类对齐度三轴比较。
过程评测:ToolPRMBench
不只看最终结果,评估每一步决策质量。
两种数据构建策略(详解)
离线采样
在正确路径的某一步上让模型走偏,测评判模型能否发现。
在线采样
让智能体自由执行整个任务,失败后用 LLM 找第一个错误步骤。
评判器精度上限:AgentRewardBench
智能体完成任务后,谁来判定成功?人工太贵、规则太死、LLM……精度不超过 70%。
人评降本方案
来自 ChatGPT 补充代表性方法
推荐四阶段流程
端到端评测框架选型
来自 ChatGPT 补充不只是数据集——能启动环境、运行 Agent、记录轨迹、计算指标、回放失败。
| 框架 | 场景 | 核心能力 | 一站式? |
|---|---|---|---|
| BrowserGym + AgentLab | Web Agent | Gym-like 网页环境,整合多种 benchmark | 很接近 |
| Inspect AI | 通用 Agent/工具/安全 | UK AI 安全研究所,dataset/solver/tool/scorer 标准化 | 很接近 |
| AppWorld | 多 App API | 9 个 App、457 API、750 任务、state-based unit tests | 是 |
| τ-bench | 工具+多轮对话 | 动态用户模拟、领域政策、pass^k 可靠性 | 是 |
| AgentBoard | 多轮 Agent | 9 类任务、1013 环境、progress rate | 偏研究 |
| LangSmith / AgentEvals | 生产 trace | 轨迹匹配、LLM judge、在线监控、回归 | 工程实用 |
中文/非英语智能体评测
已有基准
关键空白
生产落地案例
eval 拆成 task/trial/transcript/grade。Agent eval 必须看完整轨迹。
code-based 评客观、LLM judge 评主观、人工处理模糊。partial credit + 多次试跑。
Web Agent 的 scalable LLM-as-judge 基础设施。处理高方差和网页变化。
推荐评测体系架构
维度一:任务环境
维度二:评测对象
维度三:评分方式
┌─────────────────────────────┐ │ Task Registry │ gold / regression / live / adversarial └──────────────┬──────────────┘ ┌──────────────▼──────────────┐ │ Environment Layer │ browser / desktop / api / sandbox / mobile └──────────────┬──────────────┘ ┌──────────────▼──────────────┐ │ Agent Runner │ model / prompt / tools / multi-run / pass^k └──────────────┬──────────────┘ ┌──────────────▼──────────────┐ │ Trace Store │ obs / action / tool call / cost / artifacts └──────────────┬──────────────┘ ┌──────────────▼──────────────┐ │ Scoring Layer │ rules / state / unit test / LLM / VLM / reward / human └──────────────┬──────────────┘ ┌──────────────▼──────────────┐ │ Analysis Dashboard │ metrics / errors / replay / release gate / trend └─────────────────────────────┘