skill · prompt · RAG · agent 的全周期评测
管理、评测、改进、观测你的 skill、prompt、RAG 与 agent 上下文 —— 同一套统计严谨性贯穿全程。Bootstrap 置信区间、长度去偏默认启用——不是可选的进阶项,而是测量可信度的底线。
doctor、eval、observe 不是三个工具,是同一套测量学贯穿 skill 生命周期的三个时点 —— 各自回答一个不同的问题。
这个 skill 本身写得健康吗?7 个内置维度独立打分,静态规则零成本,LLM 审计可深度,支持接口驱动的自定义维度。
$ omk doctor my-skill --dimensions audit.yaml
v2 真的比 v1 好吗?控制变量 A/B —— 相同模型、相同用例,只改知识载体。六维独立评分,一行 verdict 给 ship 建议。
$ omk eval --control v1 --treatment v2
线上跑得怎么样?解析真实 session JSONL,测每个 skill 的失败率、耗时、token 成本,识别严重度加权的知识缺口信号。
$ omk observe ~/.claude/sessions
决定一个对比可信与否的,是这五处常被忽略的失真。omk 将每一道防线内建于底层,无需你逐个开启。
同类工具普遍只覆盖其中一两项。omk 的取舍:把可信度做进底层,而非留作选项。
维度取自通用 LLMOps 评测选型轴(指标库 / judge / CI / 可观测 / 协作)+ 测量学的效度与信度 —— 不是为 omk 量身定的规则。omk 在好几条轴上并不占优,如实标出。
| 能力维度 | omk | promptfoo | DeepEval | LangSmith |
|---|---|---|---|---|
| 测量可信度 · 测量学效度 / 信度 | ||||
| 统计显著性(置信区间 / 检验) | ✓ Bootstrap | — | — | — |
| 评委 ↔ 人工 信度(一致性度量) | ✓ Krippendorff α | — | — | — |
| 评估偏差控制(长度去偏) | ✓ 默认 | — | — | — |
| 评估能力 | ||||
| 断言 / 指标库广度 | ✓ 30+ | ✓ | ✓ | ◑ |
| RAG 专项 metric | ◑ 3 项 | ◑ | ✓ 丰富 | ◑ |
| LLM-as-judge | ✓ | ✓ | ✓ | ✓ |
| 工程 & 协作 | ||||
| CI/CD 集成(退出码路由) | ✓ | ✓ | ✓ | ◑ |
| 上手速度 / 配置简洁 | ◑ | ✓ 极快 | ◑ | ◑ |
| 实验追踪 / Tracing | — | — | ◑ | ✓ 强项 |
| 托管 SaaS 看板 / 团队协作 | — | — | ✓ | ✓ |
| 生态 & 集成 | ||||
| 社区规模(GitHub stars, 2026-04) | 新生 | 9k+ | 12k+ | 商业 |
| 原生 Claude Code skill | ✓ | — | — | — |
完整对比(8 工具 × 30+ 维,含 RAGAS / OpenAI Evals / lm-eval-harness / inspect-ai)见 对比文档,数据截至 2026-04,发现过时请提 PR 修正。结论:没有银弹 —— omk 的取舍是「把统计可信度做到默认」,要 SaaS 看板选 LangSmith、要学术基准选 lm-eval-harness。
一行 omk install omk-agent-skill 把官方 Agent Skill 装进本机已检测到的 Claude Code / Codex(--to all 装到全部)。之后 Claude Code 里 /omk 开箱即用,Codex 等直接跑 omk CLI。
不用记命令 —— 用大白话说目标,agent 会从上下文定位 skill、选对命令。
下一次发布前,先让数据说话。
不用改任何文件 —— omk init 脚手架两版 skill 和三条用例,omk eval 5 分钟内出 HTML 报告 + 一行 verdict。