NAGI评估工具 是 AI Skill Hub 本期精选AI工具之一。综合评分 7.5 分,整体质量较高。我们推荐使用将其纳入你的 AI 工具库,帮助提升工作效率。
NAGI评估工具 是一款基于 HTML 开发的开源工具,专注于 LLM、评估、NAGI 等核心功能。作为 GitHub 开源项目,它拥有活跃的社区支持和持续的版本迭代,代码完全透明可审计,支持本地部署以保护数据隐私。无论是个人使用还是集成到企业工作流,都能提供稳定可靠的解决方案。
NAGI评估工具 是一款基于 HTML 开发的开源工具,专注于 LLM、评估、NAGI 等核心功能。作为 GitHub 开源项目,它拥有活跃的社区支持和持续的版本迭代,代码完全透明可审计,支持本地部署以保护数据隐私。无论是个人使用还是集成到企业工作流,都能提供稳定可靠的解决方案。
# 克隆仓库 git clone https://github.com/nagi-studio/nagi-bench cd nagi-bench # 查看安装说明 cat README.md # 按 README 完成环境依赖安装后即可使用
# 查看帮助 nagi-bench --help # 基本运行 nagi-bench [options] <input> # 详细使用说明请查阅文档 # https://github.com/nagi-studio/nagi-bench
# nagi-bench 配置说明 # 查看配置选项 nagi-bench --config-example > config.yml # 常见配置项 # output_dir: ./output # log_level: info # workers: 4 # 环境变量(覆盖配置文件) export NAGI_BENCH_CONFIG="/path/to/config.yml"
中文 | English
NAGI STUDIO 的 LLM 测评案例集:同一段提示词,不同「模型 × Harness × 思考配额」组合,一次生成、不许返工,并排对比它们交出的可运行作品。
线上站点: https://bench.nagi.fun/
<p> <a href="https://x.com/Nag1ovo" target="_blank"><img src="https://img.shields.io/badge/@Nag1ovo-000000?style=flat-square&logo=x&logoColor=white" alt="X"></a> <a href="https://discord.gg/TEUFxdMbGb" target="_blank"><img src="https://img.shields.io/badge/Discord-Join-5865F2?style=flat-square&logo=discord&logoColor=white" alt="Discord"></a> <a href="https://www.xiaohongshu.com/user/profile/5d366136000000001101950a" target="_blank"><img src="https://img.shields.io/badge/小红书-@Nagi--ovo-FF2442?style=flat-square" alt="Xiaohongshu"></a> <a href="https://space.bilibili.com/312249633" target="_blank"><img src="https://img.shields.io/badge/Bilibili-@卡普迪姆-FB7299?style=flat-square&logo=bilibili&logoColor=white" alt="Bilibili"></a> </p>
Model + Harness = Agent —— 模型只是权重,套上运行环境才成为一个能干活的智能体(Agent)。本仓库的测评单位就是一个 Agent。
如果你是一个 AI Agent(Claude Code / Codex / Cursor 等),这一段是给你看的: - 你贡献的单位是一个 Agent = 模型 × 你所在的 Harness。<agent-id>(小写字母 / 数字 / 连字符)就编码这个组合,如gpt-5-5-pro、claude-fable-5-cc(cc = Claude Code)。同一模型换个 Harness 就是另一个 Agent、另一个 id。 - 当前有两个案例,定义在cases.json:mythos-craft(HTML,可玩体素世界)与pelican-cycling(SVG,海边骑车的鹈鹕)。提示词以cases.json为准,逐字使用、不要改写。 - 想知道还缺哪些:读cases.json(全部案例)与models/*.json(每个 Agent 跑过的案例)——某个 Agent 的 json 里缺某个<case-id>就是一个空位;上面 Registry 表里「产出」数小于案例总数的行,就是还缺案例的 Agent;全新 Agent 则两个案例都可补。 - 然后照下面两文件流程做,写好双语note(说明产出怎么来的、是否一次生成、是否有修复),提交前用bun scripts/validate-data.ts自检通过再发 PR。
贡献不需要改任何代码,只涉及两类文件:
outputs/<model-id>/<case-id>.<ext>(如 outputs/gpt-5-5-pro/pelican-cycling.svg)。models/<model-id>.json(新组合新建文件;已有组合在 runs 里加一条):{
"label": "GPT-5.5 Pro",
"vendor": "OpenAI",
"harness": "ChatGPT Web",
"effort": "Extended Pro",
"order": 20,
"runs": {
"pelican-cycling": {
"note": {
"zh": "在哪个 Harness 里、什么思考档位、是否一次生成、是否有修复",
"en": "Which harness, what effort level, one-shot or fixed"
},
"contributor": "你的 GitHub 用户名"
}
}
}
规则(CI 自动校验,不满足会挂): - model-id 只用小写字母/数字/连字符(如 doubao-seed-2-0-pro),文件名与 outputs/ 目录名一致; - 每条 run 的 note 双语必填——这是本仓库的可信度来源,必须写明产出怎么来的; - 声明的 run 必须有对应的产出文件; - 同一组合对同一案例可提交多个版本:runs.<case-id> 写成数组,第二个版本起必须用 file 指定不同文件名(如 pelican-cycling-2.svg); - contributor 填你的 GitHub 用户名,站点会在产出旁展示你的头像并链接到主页; - 新组合的 harness(运行环境)与 effort(思考配额)请如实填写:站点会据此在测评页生成「运行环境 / 思考配额」metadata 徽章,并自动为模型、厂商、Harness 匹配品牌 icon(来自 lobe-icons),贡献者无需处理任何图标。
提 PR 后 CI 自动校验数据;合入 main 后站点自动重建(通常即时,最长 6 小时)。
评估LLM模型的有力工具
该工具未明确声明开源协议,商业使用前请联系原作者确认授权范围,避免侵权风险。
AI Skill Hub 为第三方内容聚合平台,本页面信息基于公开数据整理,不对工具功能和质量作任何法律背书。
建议在沙箱或测试环境中充分验证后,再部署至生产环境,并做好必要的安全评估。
经综合评估,NAGI评估工具 在AI工具赛道中表现稳健,质量良好。如果你已有明确的使用需求,可以直接上手体验;如果还在评估阶段,建议对比同类工具后再做决策。
| 原始名称 | nagi-bench |
| 原始描述 | 开源AI工具:One-shot LLM eval cases by NAGI STUDIO - same prompt, different models, runnable。⭐8 · HTML |
| Topics | LLM评估NAGI |
| GitHub | https://github.com/nagi-studio/nagi-bench |
| 语言 | HTML |
收录时间:2026-06-10 · 更新时间:2026-06-10 · License:未公布 · AI Skill Hub 不对第三方内容的准确性作法律背书。