经 AI Skill Hub 精选评估,AI工作流评估 获评「推荐使用」。这款Agent工作流在功能完整性、社区活跃度和易用性方面表现出色,AI 评分 7.5 分,适合有一定技术背景的用户使用。
AI工作流评估 是一套完整的 AI Agent 自动化工作流方案。通过可视化的节点编排,将复杂的多步骤任务拆解为清晰的自动化流程,实现全程无人值守的智能处理。支持与数百种外部服务和 API 无缝集成,适合构建数据处理管线、业务自动化和 AI 辅助决策系统。
AI工作流评估 是一套完整的 AI Agent 自动化工作流方案。通过可视化的节点编排,将复杂的多步骤任务拆解为清晰的自动化流程,实现全程无人值守的智能处理。支持与数百种外部服务和 API 无缝集成,适合构建数据处理管线、业务自动化和 AI 辅助决策系统。
# 方式一:pip 安装(推荐)
pip install gdpval-realworks
# 方式二:虚拟环境安装(推荐生产环境)
python -m venv .venv
source .venv/bin/activate # Windows: .venv\Scripts\activate
pip install gdpval-realworks
# 方式三:从源码安装(获取最新功能)
git clone https://github.com/hyeonsangjeon/gdpval-realworks
cd gdpval-realworks
pip install -e .
# 验证安装
python -c "import gdpval_realworks; print('安装成功')"
# 命令行使用
gdpval-realworks --help
# 基本用法
gdpval-realworks input_file -o output_file
# Python 代码中调用
import gdpval_realworks
# 示例
result = gdpval_realworks.process("input")
print(result)
# gdpval-realworks 配置文件示例(config.yml) app: name: "gdpval-realworks" debug: false log_level: "INFO" # 运行时指定配置文件 gdpval-realworks --config config.yml # 或通过环境变量配置 export GDPVAL_REALWORKS_API_KEY="your-key" export GDPVAL_REALWORKS_OUTPUT_DIR="./output"
<p align="center"> <img src="https://img.shields.io/badge/GDPVal-Real%20Work%20Benchmark-blueviolet?style=for-the-badge" alt="GDPVal RealWorks" /> </p>
<p align="center"> <strong>Benchmark LLMs on real expert work — not academic toy problems.</strong><br/> <em>A YAML-driven experiment pipeline + live dashboard for the <a href="https://arxiv.org/abs/2510.04374">GDPVal</a> Gold Subset (220 tasks).</em> </p>
<p align="center"> <a href="https://github.com/hyeonsangjeon/gdpval-realworks/actions/workflows/deploy.yml"> <img src="https://github.com/hyeonsangjeon/gdpval-realworks/actions/workflows/deploy.yml/badge.svg" alt="Deploy" /> </a> <a href="https://github.com/hyeonsangjeon/gdpval-realworks/actions/workflows/batch-run.yml"> <img src="https://github.com/hyeonsangjeon/gdpval-realworks/actions/workflows/batch-run.yml/badge.svg" alt="Batch Run" /> </a> <a href="LICENSE"> <img src="https://img.shields.io/badge/license-MIT-green.svg" alt="License" /> </a> </p>
<p align="center"> <a href="https://hyeonsangjeon.github.io/gdpval-realworks/">🌐 Live Dashboard</a> · <a href="README_KR.md">🇰🇷 한국어</a> · <a href="batch-runner/README.md">📖 Batch Runner Docs</a> · <a href="https://arxiv.org/abs/2510.04374">📄 Paper</a> </p>
---
📊 Live Dashboard → https://hyeonsangjeon.github.io/gdpval-realworks/ Leaderboard · Trends · Execution Errors · Grading Analysis — all in one place.
---
pytest -m integration
| Feature | Detail |
|---|---|
| **Trigger** | Push to main (auto, scoped to data/, src/, scripts/) or manual workflow_dispatch |
| **Build** | Aggregate test/grade data → React build → actions/deploy-pages artifact upload |
| **Source** | GitHub Pages **Source: GitHub Actions** (no gh-pages branch) |
---
Go to Settings → Secrets and variables → Actions → New repository secret and add the secrets you need:
| Secret Name | Value | Required? |
|---|---|---|
AZURE_OPENAI_API_KEY | Azure OpenAI API key | ✅ If using Azure |
AZURE_OPENAI_ENDPOINT | https://your-resource.openai.azure.com/ | ✅ If using Azure |
OPENAI_API_KEY | OpenAI API key | If using OpenAI |
ANTHROPIC_API_KEY | Anthropic API key | If using Anthropic |
HF_TOKEN | HuggingFace write token ([get one here](https://huggingface.co/settings/tokens)) | ✅ For upload |
💡 You don't need all of them — just the provider you'll actually use. For Azure users:AZURE_OPENAI_API_KEY+AZURE_OPENAI_ENDPOINT+HF_TOKENis the minimum.
Settings → Pages → Source must be set to "GitHub Actions" (not "Deploy from a branch"). The deploy.yml workflow uploads the build artifact via actions/deploy-pages — no gh-pages branch is used.
Settings → Actions → General → Workflow permissions:
Settings → General → ✅ Check "Automatically delete head branches"
This cleans up experiment branches automatically after PR merge.
---
pytest
---
execution: mode: "code_interpreter" max_retries: 5 resume_max_rounds: 3 ```
Then trigger it from Actions → Run workflow with experiment_yaml: exp001_GPT52Chat_baseline.
---
Before acceptance, the same LLM working on the task inspects its own output: Self-QA scores each output on a 0-10 scale using rubric-based self-evaluation. If the score is below the configured threshold (default: 6), it enters a reflection loop and retries.
<img src="https://mermaid.ink/img/Zmxvd2NoYXJ0IExSCiAgICB0YXNrWyJUYXNrIl0gLS0-IGdlblsiTExNIEdlbmVyYXRlcyBPdXRwdXQiXSAtLT4gcWFbIlNlbGYtUUEgSW5zcGVjdHMiXSAtLT4gZ2F0ZXsiU2NvcmUgPj0gNj8ifQogICAgZ2F0ZSAtLT58WWVzfCBhY2NlcHRbIkFjY2VwdCJdCiAgICBnYXRlIC0tPnxOb3wgcmV0cnlbIlJldHJ5ICh1cCB0byAzeCkiXQo=" alt="Self-QA Flow" />
Self-QA checks: Are all requirements met? Are files actually produced? Is the output professional?
---
GDPVal RealWorks 是一个专门用于评估 LLM 在真实专家级工作场景下表现的基准测试平台。不同于传统的学术玩具问题(toy problems),本项目通过 YAML 驱动的实验流水线(experiment pipeline)结合实时可视化 Dashboard,旨在为复杂的真实任务提供严谨的评估环境,帮助开发者深入了解模型在实际生产环境中的能力边界。
在进行集成测试(Integration tests)时,项目需要配置真实的凭证(credentials)以确保能够调用外部服务。基础测试环境建议使用 pytest,并通过执行 `pytest -m integration` 命令来运行完整的集成测试流程。
项目通过 GitHub Actions 实现 Dashboard 的自动化部署。当 `data/`、`src/` 或 `scripts/` 目录发生 Push 到 `main` 分支的操作,或手动触发 `workflow_dispatch` 时,系统会自动聚合测试与评分数据,通过 React 构建并利用 `actions/deploy-pages` 将结果发布至 GitHub Pages,无需维护额外的 `gh-pages` 分支。
本项目提供快速启动(Quick Start)指南,引导开发者通过简单的指令快速搭建起实验环境,实现从数据准备到模型评估的完整闭环。
在使用前,需要根据所选模型配置 GitHub Repository Secrets。请前往 Settings → Secrets and variables → Actions → New repository secret 进行设置。若使用 Azure 服务,必须配置 `AZURE_OPENAI_API_KEY` 与 `AZURE_OPENAI_ENDPOINT`;若使用 OpenAI 原生接口,则需配置 `OPENAI_API_KEY` 等关键参数。
本项目目前仅包含单元测试(Unit tests),在运行测试时无需配置 API keys,直接通过执行 `pytest` 命令即可完成对核心逻辑的验证。
项目的工作流深度集成于 GitHub Actions,通过自动化流水线管理从数据处理、模型评估到结果展示的全生命周期,确保实验过程的可追溯性与自动化水平。
项目内置了 Self-QA(自我问答)质量反思机制。在任务交付前,同一 LLM 会根据预设的评分标准(rubric)对输出结果进行 0-10 分的自我评估。如果得分低于设定的阈值(默认值为 6),系统将自动进入反思循环(reflection loop)并进行重试,以确保输出质量。
评估AI模型在实际工作中的表现,具有较高的实用价值
AI Skill Hub 为第三方内容聚合平台,本页面信息基于公开数据整理,不对工具功能和质量作任何法律背书。
建议在沙箱或测试环境中充分验证后,再部署至生产环境,并做好必要的安全评估。
✅ MIT 协议 — 最宽松的开源协议之一,可自由商用、修改、分发,仅需保留版权声明。
AI Skill Hub 点评:AI工作流评估 的核心功能完整,质量良好。对于自动化工程师和运维人员来说,这是一个值得纳入个人工具库的选择。建议先在非生产环境试用,再逐步推广。
| 原始名称 | gdpval-realworks |
| 原始描述 | 开源AI工作流:Benchmark LLMs on real professional tasks, not academic puzzles. YAML-driven exp。⭐14 · Python |
| Topics | ai-evaluationbenchmark-automationpython |
| GitHub | https://github.com/hyeonsangjeon/gdpval-realworks |
| License | MIT |
| 语言 | Python |
收录时间:2026-05-30 · 更新时间:2026-05-31 · License:MIT · AI Skill Hub 不对第三方内容的准确性作法律背书。
选择 Agent 类型,复制安装指令后粘贴到对应客户端