35
核心概念
9
关键主题
20分钟
核心框架速览
选择你的学习方式
多种学习模式,适合不同场景和习惯
九大核心主题
从理念到实现,完整的 Agent Skills Evals 知识闭环
基础概念
Skill 是什么、Eval 是什么、vibes-based 陷阱——为什么要做系统化评估
定义成功的四类目标
Outcome / Process / Style / Efficiency 四种目标,拆清楚「好」到底长什么样
Skill 文件结构
SKILL.md、name/description 的重要性、Instruction-only 与 Definition of Done
手动触发与隐藏假设
用 /skills 和 $ 前缀跑一遍,发现触发、环境、执行三类隐藏假设
codex exec 命令
--full-auto、--json 与 JSONL 轨迹,command_execution 事件与 token 监控
数据集与 Prompt 类型
prompts.csv、explicit / implicit / contextual / negative 四类测试用例
确定性评分
基于规则的 grader、最小 Node.js runner 与 artifacts 存档体系
Rubric 与两步评估
--output-schema、Rubric 量表、执行与审查分离的两步评估管线
持续维护
用真实失败驱动覆盖率,让 eval 数据集随 bug 一起生长