覆盖 skill · prompt · RAG · agent 的全周期评测

让每一次改动
都有统计学证据

管理、评测、改进、观测你的 skill、prompt、RAG 与 agent 上下文 —— 同一套统计严谨性贯穿全程。Bootstrap 置信区间、长度去偏默认启用——不是可选的进阶项,而是测量可信度的底线。

$ npm i -g oh-my-knowledge复制 ⧉ 快速开始
npm 周下载 ··· CI passing MIT Node ≥ 22 相同模型 · 相同用例 · 只改知识载体
omk — eval · 知识载体评测生命周期 live

eval 控制变量 A/B:相同模型、相同用例,只改知识载体 —— 综合得分提升的 95% 置信区间
0% +10% +20% +30% 不显著阈值(CI 跨 0) +18.3% +11.2 +25.4
v2 明显优于 v1,可以发布 CI[+11.2, +25.4]α = 0.81已去长度偏倚
doctor 上线前体检:7 个内置维度独立打分(静态规则 + LLM 审计,可离线)
触发与边界健康
文档清晰健康
指令精确性亚健康
依赖检查健康
工具规范健康
安全与合规亚健康
示例完备健康
🩺 健康度 良好 · 5 健康 / 2 亚健康 · 体检建议 3 条
observe 线上观测:解析 Claude Code session,量化失败率、成本与知识缺口
会话失败率
4.2%
▼ 较上周 −1.6pt
P50 耗时
18.4s
▼ −2.1s
平均成本 / 会话
$0.012
▲ +$0.003
知识缺口信号:「环境探测前置缺失」在 12 个会话中重复出现 —— 严重度加权排第一 ×12
三类评测能力

一条流水线,覆盖 skill 的一生

doctor、eval、observe 不是三个工具,是同一套测量学贯穿 skill 生命周期的三个时点 —— 各自回答一个不同的问题。

🩺

doctor 上线前

这个 skill 本身写得健康吗?7 个内置维度独立打分,静态规则零成本,LLM 审计可深度,支持接口驱动的自定义维度。

$ omk doctor my-skill --dimensions audit.yaml
  • 触发边界 / 文档 / 指令 / 依赖 / 工具 / 安全 / 示例
  • --static-only 离线无 LLM 调用
  • endpoint 自定义维度:调接口做深度审查
📊

eval 发布时

v2 真的比 v1 好吗?控制变量 A/B —— 相同模型、相同用例,只改知识载体。六维独立评分,一行 verdict 给 ship 建议。

$ omk eval --control v1 --treatment v2
  • Bootstrap CI / 长度去偏 / 饱和曲线默认开
  • Krippendorff α:给 gold 集自动算评委↔人工一致
  • 盲测 A/B · 多评委 ensemble · 多轮方差
🔭

observe 上线后

线上跑得怎么样?解析真实 session JSONL,测每个 skill 的失败率、耗时、token 成本,识别严重度加权的知识缺口信号。

$ omk observe ~/.claude/sessions
  • 会话失败率 / 耗时 / 成本逐 skill 拆解
  • 知识缺口识别:量化风险敞口
  • 为 sample / evolve 迭代提供线上信号
护城河 · 测量可信度

严谨是底座,不是附加项

决定一个对比可信与否的,是这五处常被忽略的失真。omk 将每一道防线内建于底层,无需你逐个开启。

01
点估计把抽样波动误读为真实增益
Bootstrap 置信区间 内建
输出区间而非单点,显著性可直接判定。
02
复合均分掩盖单一维度的回退
三层独立评分 · 全过门槛 内建
事实 / 行为 / 评委任一不达标,即不予通过。
03
对照组读到被测载体本身
construct validity 失守
strict-baseline 隔离 内建
封闭技能自发现、Skill 工具、cwd 旁路三条通道。
04
评委对长答案存在系统性偏好
长度去偏评委 内建
评分剔除长度协变量,篇幅不再换分。
05
评委评分自身的信度无从度量
Krippendorff α 配 gold 即开
以人工标注为锚,量化评委↔人工一致性。

同类工具普遍只覆盖其中一两项。omk 的取舍:把可信度做进底层,而非留作选项。

选型对比

同一套标准下的横向对比

维度取自通用 LLMOps 评测选型轴(指标库 / judge / CI / 可观测 / 协作)+ 测量学的效度与信度 —— 不是为 omk 量身定的规则。omk 在好几条轴上并不占优,如实标出。

能力维度omkpromptfooDeepEvalLangSmith
测量可信度 · 测量学效度 / 信度
统计显著性(置信区间 / 检验)Bootstrap
评委 ↔ 人工 信度(一致性度量)Krippendorff α
评估偏差控制(长度去偏)默认
评估能力
断言 / 指标库广度30+
RAG 专项 metric3 项丰富
LLM-as-judge
工程 & 协作
CI/CD 集成(退出码路由)
上手速度 / 配置简洁极快
实验追踪 / Tracing强项
托管 SaaS 看板 / 团队协作
生态 & 集成
社区规模(GitHub stars, 2026-04)新生9k+12k+商业
原生 Claude Code skill
原生支持 部分 / 需配置 不支持

完整对比(8 工具 × 30+ 维,含 RAGAS / OpenAI Evals / lm-eval-harness / inspect-ai)见 对比文档,数据截至 2026-04,发现过时请提 PR 修正。结论:没有银弹 —— omk 的取舍是「把统计可信度做到默认」,要 SaaS 看板选 LangSmith、要学术基准选 lm-eval-harness。

$ omk install omk-agent-skill # 一次性安装
✓ 已写入本机检测到的 Claude Code / Codex
/omk eval # 评测当前项目的 artifact
/omk evolve # 一键:体检→生成用例→自迭代
/omk sample # 生成或补齐评测用例
> 帮我比较 v1 和 v2 的差异
↳ 推断意图 → omk eval --control v1 --treatment v2 …
Agent 集成

在你的 Coding Agent 里直接用

一行 omk install omk-agent-skill 把官方 Agent Skill 装进本机已检测到的 Claude Code / Codex(--to all 装到全部)。之后 Claude Code 里 /omk 开箱即用,Codex 等直接跑 omk CLI。

不用记命令 —— 用大白话说目标,agent 会从上下文定位 skill、选对命令。

把这个 skill 改得更稳,再和上一版比一比

下一次发布前,先让数据说话

5 分钟跑通第一个评测

从一个裸数字,到一个经得起追问的结论

不用改任何文件 —— omk init 脚手架两版 skill 和三条用例,omk eval 5 分钟内出 HTML 报告 + 一行 verdict。

$ omk init demo && cd demo && omk eval复制 ⧉