35 个 Agent Skills Evals 核心概念

把 Agent Skill 变成
可测、可比、可改进
的系统

从「凭 vibes 迭代」到「基于证据改进」—— 基于 OpenAI Developers 博客《Testing Agent Skills Systematically with Evals》的 35 个核心概念工坊

当前概念
Agent Skill(智能体技能)
给 LLM 的一组有组织的提示词和指令,用来完成特定任务
基础概念
35
核心概念
9
关键主题
20分钟
核心框架速览

九大核心主题

从理念到实现,完整的 Agent Skills Evals 知识闭环

🎯
基础概念
Skill 是什么、Eval 是什么、vibes-based 陷阱——为什么要做系统化评估
定义成功的四类目标
Outcome / Process / Style / Efficiency 四种目标,拆清楚「好」到底长什么样
📝
Skill 文件结构
SKILL.md、name/description 的重要性、Instruction-only 与 Definition of Done
🔍
手动触发与隐藏假设
用 /skills 和 $ 前缀跑一遍,发现触发、环境、执行三类隐藏假设
⚙️
codex exec 命令
--full-auto、--json 与 JSONL 轨迹,command_execution 事件与 token 监控
📋
数据集与 Prompt 类型
prompts.csv、explicit / implicit / contextual / negative 四类测试用例
🧮
确定性评分
基于规则的 grader、最小 Node.js runner 与 artifacts 存档体系
🤖
Rubric 与两步评估
--output-schema、Rubric 量表、执行与审查分离的两步评估管线
🌱
持续维护
用真实失败驱动覆盖率,让 eval 数据集随 bug 一起生长