✨ 35 个 Agent Skills Evals 核心概念

把 Agent Skill 变成
可测、可比、可改进
的系统

从「凭 vibes 迭代」到「基于证据改进」—— 基于 OpenAI Developers 博客《Testing Agent Skills Systematically with Evals》的 35 个核心概念工坊

当前概念

Agent Skill（智能体技能）

给 LLM 的一组有组织的提示词和指令，用来完成特定任务

基础概念

开始第一个概念 → 闪卡复习

核心概念

关键主题

20分钟

核心框架速览

选择你的学习方式

多种学习模式，适合不同场景和习惯

📖

渐进学习

系统地逐一学习每个概念，深入理解原理与应用场景

🃏

闪卡复习

快速翻阅核心概念，用卡片翻转的方式强化记忆

🔍

概念索引

按主题浏览或搜索所有概念，快速定位关键知识

📊

学习进度

追踪学习情况，查看已掌握的概念和个性化建议

九大核心主题

从理念到实现，完整的 Agent Skills Evals 知识闭环

🎯

基础概念

Skill 是什么、Eval 是什么、vibes-based 陷阱——为什么要做系统化评估

✅

定义成功的四类目标

Outcome / Process / Style / Efficiency 四种目标，拆清楚「好」到底长什么样

📝

Skill 文件结构

SKILL.md、name/description 的重要性、Instruction-only 与 Definition of Done

🔍

手动触发与隐藏假设

用 /skills 和 $ 前缀跑一遍，发现触发、环境、执行三类隐藏假设

⚙️

codex exec 命令

--full-auto、--json 与 JSONL 轨迹，command_execution 事件与 token 监控

📋

数据集与 Prompt 类型

prompts.csv、explicit / implicit / contextual / negative 四类测试用例

🧮

确定性评分

基于规则的 grader、最小 Node.js runner 与 artifacts 存档体系

🤖

Rubric 与两步评估

--output-schema、Rubric 量表、执行与审查分离的两步评估管线

🌱

持续维护

用真实失败驱动覆盖率，让 eval 数据集随 bug 一起生长

把 Agent Skill 变成 可测、可比、可改进 的系统

选择你的学习方式

九大核心主题

把 Agent Skill 变成
可测、可比、可改进
的系统