能力标签
数据工作流基线
⚙️
Agent工作流

数据工作流基线

基于 Python · 无代码搭建完整 AI 自动化流程
英文名:dataspoke-baseline
⭐ 15 Stars 💻 Python 📄 Apache-2.0 🏷 AI 7.5分
7.5AI 综合评分
ai数据管理工作流
✦ AI Skill Hub 推荐

数据工作流基线 是 AI Skill Hub 本期精选Agent工作流之一。综合评分 7.5 分,整体质量较高。我们推荐使用将其纳入你的 AI 工具库,帮助提升工作效率。

📚 深度解析

数据工作流基线 是一套完整的 AI Agent 自动化工作流方案。随着 AI 能力的不断提升,基于 Agent 的自动化工作流正在成为提升个人和团队效率的核心方式。区别于传统的 RPA 自动化(模拟鼠标键盘操作),AI Agent 工作流通过理解任务意图、动态规划执行路径,能够处理更复杂的非结构化任务。

数据工作流基线 工作流的设计遵循"最小配置,最大复用"原则:核心逻辑已经封装好,用户只需配置自己的 API Key 和业务参数即可快速上手。工作流内置错误处理和重试机制,在网络波动或 API 限速等情况下仍能稳定运行,适合作为生产环境的自动化基础设施。

在实际部署时,建议先在测试环境中运行 3-5 次,验证各个环节的输出结果符合预期,再部署到生产环境。AI Skill Hub 评分 7.5 分,是同类 Agent 工作流中的精选推荐。

📋 工具概览

数据工作流基线 是一套完整的 AI Agent 自动化工作流方案。通过可视化的节点编排,将复杂的多步骤任务拆解为清晰的自动化流程,实现全程无人值守的智能处理。支持与数百种外部服务和 API 无缝集成,适合构建数据处理管线、业务自动化和 AI 辅助决策系统。

GitHub Stars
⭐ 15
开发语言
Python
支持平台
Windows / macOS / Linux
维护状态
轻量级项目,按需更新
开源协议
Apache-2.0
AI 综合评分
7.5 分
工具类型
Agent工作流
Forks

📖 中文文档

以下内容由 AI Skill Hub 根据项目信息自动整理,如需查看完整原始文档请访问底部「原始来源」。

数据工作流基线 是一套完整的 AI Agent 自动化工作流方案。通过可视化的节点编排,将复杂的多步骤任务拆解为清晰的自动化流程,实现全程无人值守的智能处理。支持与数百种外部服务和 API 无缝集成,适合构建数据处理管线、业务自动化和 AI 辅助决策系统。

📌 核心特色
  • 可视化 Agent 工作流编排,无需编写复杂代码
  • 支持多步骤自动化任务链,实现全流程无人值守
  • 与外部 API、数据库和第三方服务无缝集成
  • 内置错误处理与自动重试机制,保障稳定运行
  • 提供可复用的自动化模板,快速在同类场景部署
🎯 主要使用场景
  • 自动化日常重复性工作,将精力集中于创造性任务
  • 构建数据采集 → 处理 → 输出的完整自动化管线
  • 实现跨平台、跨系统的数据流转和业务协同
以下安装命令基于项目开发语言和类型自动生成,实际以官方 README 为准。
安装命令
# 方式一:pip 安装(推荐)
pip install dataspoke-baseline

# 方式二:虚拟环境安装(推荐生产环境)
python -m venv .venv
source .venv/bin/activate  # Windows: .venv\Scripts\activate
pip install dataspoke-baseline

# 方式三:从源码安装(获取最新功能)
git clone https://github.com/selhorys/dataspoke-baseline
cd dataspoke-baseline
pip install -e .

# 验证安装
python -c "import dataspoke_baseline; print('安装成功')"
📋 安装步骤说明
  1. 访问 GitHub 仓库获取工作流文件
  2. 在对应平台(Dify / Flowise / Make 等)中找到「导入工作流」功能
  3. 上传工作流文件
  4. 按照提示配置必要的环境变量和 API Key
  5. 运行测试确认流程正常后投入使用
以下用法示例由 AI Skill Hub 整理,涵盖最常见的使用场景。
常用命令 / 代码示例
# 命令行使用
dataspoke-baseline --help

# 基本用法
dataspoke-baseline input_file -o output_file

# Python 代码中调用
import dataspoke_baseline

# 示例
result = dataspoke_baseline.process("input")
print(result)
以下配置示例基于典型使用场景生成,具体参数请参照官方文档调整。
配置示例
# dataspoke-baseline 配置文件示例(config.yml)
app:
  name: "dataspoke-baseline"
  debug: false
  log_level: "INFO"

# 运行时指定配置文件
dataspoke-baseline --config config.yml

# 或通过环境变量配置
export DATASPOKE_BASELINE_API_KEY="your-key"
export DATASPOKE_BASELINE_OUTPUT_DIR="./output"
📑 README 深度解析 真实文档 完整度 46/100 查看 GitHub 原文 →
以下内容由系统直接从 GitHub README 解析整理,保留代码块、表格与列表结构。

DataSpoke

Note: This project is currently under active development and has not been officially released. APIs, features, and documentation are subject to change without notice.

AI-powered sidecar extension for DataHub, built API-first.

DataSpoke is a loosely coupled sidecar to DataHub. DataHub stores metadata (the Hub); DataSpoke extends it with five baseline features (the Spokes): Ingestion Control, Validation, Ontology Generation, Metadata Generation, and Governance. Both UI and API are organised by feature — one function namespace each under /spoke/.

This repository delivers two artifacts:

  • Baseline Product — A foundational data catalog implementation of the five MANIFESTO features. The API contract in spec/API.md is the canonical surface; the frontend is a thin reference UI that consumes those routes verbatim.
  • Productized Scaffold — An AI Scaffold (Claude Code conventions, generator/evaluator subagents, PRauto) plus a Development Scaffold (scripted Kubernetes dev environment) that together let teams fork this repo and build custom Spokes with AI coding agents.

Fork or copy this repository to create a data catalog for your organization.

Prerequisites

  • kubectl + Helm v3 installed and configured
  • A Kubernetes cluster with appropriate capacity
  • A separate DataHub instance — DataSpoke connects to DataHub as an external dependency

Prerequisites

  • kubectl + Helm v3 installed and configured
  • A Kubernetes cluster (GKE Autopilot recommended; Docker Desktop, minikube, or kind also work) with 8+ CPUs / 24 GB RAM / 150 GB storage
  • Python 3.13 and uv
  • Node.js 18+ (TBD — frontend not yet implemented)

Deploy to Production

DataSpoke ships as an umbrella Helm chart at helm-charts/dataspoke/. The production profile (values.yaml) enables the application components (frontend, API) and infrastructure (PostgreSQL with pgvector + Apache AGE, Redis, Airflow). The optional event-consumer subchart is shipped disabled — baseline UC1–UC5 are schedule-driven via Airflow rather than event-driven.

1. Build and push images: docker build -t <registry>/dataspoke/api:latest -f docker-images/api/Dockerfile . (Frontend image TBD; event-consumer is disabled by default) 2. Configure: Copy helm-charts/dataspoke/values.yaml and customize — container images, ingress hosts/TLS, DataHub connection (config.datahub.gmsUrl), and secrets (PostgreSQL, Redis, JWT, LLM API key). For production secrets management, consider External Secrets Operator. 3. Install:

   helm dependency build ./helm-charts/dataspoke
   helm upgrade --install dataspoke ./helm-charts/dataspoke \
     --namespace dataspoke --create-namespace \
     --values ./your-values.yaml
   

Resource sizing: Production defaults total ~5 CPU / ~10 CPU and ~9.5 Gi / ~22 Gi (requests / limits), excluding the opt-in event-consumer. See spec/feature/HELM_CHART.md for the full chart reference.

Dev Environment Setup

The dev profile installs infrastructure (DataHub, PostgreSQL with pgvector + Apache AGE, Redis, Airflow, self-hosted Langfuse for LLM observability, example data sources) into a Kubernetes cluster via the umbrella Helm chart plus dev peripherals. The API runs in-cluster alongside Airflow (for workflow callbacks); frontend runs on the host.

cp helm-charts/.env.example helm-charts/.env       # Set your Kubernetes context
./helm-charts/bin/install.sh --profile dev          # ~5-10 min first run
Using Claude Code? Run /k8s-deploy install for guided setup.

After install, verify all services are reachable:

./helm-charts/bin/health-check.sh                   # Verify all services respond via nginx-ingress

Services are accessed via nginx-ingress endpoints — HTTP services use virtual-host routing (http://<service>.<INGRESS_IP>.nip.io/) and TCP services use dedicated ports on the ingress IP. See helm-charts/README.md for the full endpoint table, credentials, lock service, namespace architecture, resource budgets, and troubleshooting.

Uninstall

./helm-charts/bin/uninstall.sh --profile dev

Building a Custom Spoke

Fork this repository and adapt:

  1. Revise spec/MANIFESTO_*.md -- redefine features and product identity
  2. Run /spec-write -- update architecture and author feature specs
  3. Run /k8s-deploy install -- bring up the local environment
  4. Use the implementation workflow above

Usage Guide

Development Guide

Implementation Workflow

Use the plan -> approve -> generate -> evaluate workflow:

  1. Read the relevant spec in spec/feature/
  2. Plan (built-in Plan mode) -> human reviews and approves
  3. backend -> reviewer -> [fix pass if needed]
  4. workflow -> reviewer -> [fix pass if needed]
  5. test -- write and run tests
  6. frontend -> reviewer -> [fix pass if needed]
  7. k8s-helm -- containerize and deploy

See spec/AI_SCAFFOLD.md for the full scaffold reference.

🎯 aiskill88 AI 点评 A 级 2026-05-25

高质量的开源AI工作流项目

📚 实用指南(长尾问题)
适合谁
  • 构建多智能体协作系统的 Agent 开发者
最佳实践
  • 生产部署优先使用 Docker Compose 隔离依赖,并挂载 volume 持久化数据
  • Agent 任务先做 dry-run 验证工具调用链,再开启自主执行
常见错误
  • API key 直接提交到 git 仓库(请用 .env 并加入 .gitignore)
  • 容器内无法访问宿主机 localhost — 使用 host.docker.internal
  • Python 依赖冲突:建议用 venv / uv 隔离环境
部署方案
  • Docker:dataspoke-baseline 提供官方镜像,docker compose up 一键启动
  • 云端托管:可放在 Vercel / Railway / Fly.io 等 PaaS 平台
相关搜索
dataspoke-baseline 中文教程dataspoke-baseline 安装报错怎么办dataspoke-baseline Docker 部署dataspoke-baseline Agent 工作流dataspoke-baseline 与同类工具对比dataspoke-baseline 最佳实践dataspoke-baseline 适合谁用

⚡ 核心功能

👥 适合谁
  • 构建多智能体协作系统的 Agent 开发者
⭐ 最佳实践
  • 生产部署优先使用 Docker Compose 隔离依赖,并挂载 volume 持久化数据
  • Agent 任务先做 dry-run 验证工具调用链,再开启自主执行
⚠️ 常见错误
  • API key 直接提交到 git 仓库(请用 .env 并加入 .gitignore)
  • 容器内无法访问宿主机 localhost — 使用 host.docker.internal
  • Python 依赖冲突:建议用 venv / uv 隔离环境

👥 适合人群

自动化工程师和运维人员项目经理和业务分析师希望减少重复性工作的专业人士数字化转型团队

🎯 使用场景

  • 自动化日常重复性工作,将精力集中于创造性任务
  • 构建数据采集 → 处理 → 输出的完整自动化管线
  • 实现跨平台、跨系统的数据流转和业务协同

⚖️ 优点与不足

✅ 优点
  • +Apache-2.0 协议,可免费商用
  • +大幅减少重复性人工操作
  • +可视化流程,清晰直观
  • +可扩展性强,支持复杂场景
⚠️ 不足
  • 初始配置和调试需投入一定时间
  • 强依赖外部服务的稳定性
  • 复杂场景需具备一定技术基础
⚠️ 使用须知

AI Skill Hub 为第三方内容聚合平台,本页面信息基于公开数据整理,不对工具功能和质量作任何法律背书。

建议在沙箱或测试环境中充分验证后,再部署至生产环境,并做好必要的安全评估。

📄 License 说明

✅ Apache 2.0 — 宽松开源协议,可商用,需保留版权声明和 NOTICE 文件,含专利授权条款。

🔗 相关工具推荐

📚 相关教程推荐
📰 相关 AI 新闻
🍿 AI 圈相关吃瓜
🗺️ 相关解决方案
🧩 你可能还需要
基于当前 Skill 的能力图谱,自动补全的工具组合

❓ 常见问题 FAQ

dataspoke-baseline 是一款Python开发的AI辅助工具。开源AI工作流:A Baseline Product for an Omnipotent Data Catalog。⭐15 · Python 主要应用场景包括:数据目录管理和工作流自动化。
💡 AI Skill Hub 点评

经综合评估,数据工作流基线 在Agent工作流赛道中表现稳健,质量良好。如果你已有明确的使用需求,可以直接上手体验;如果还在评估阶段,建议对比同类工具后再做决策。

⬇️ 获取与下载
⬇ 下载源码 ZIP

✅ Apache-2.0 协议 · 可免费商用 · 直接从 aiskill88 服务器下载,无需跳转 GitHub

📚 深入学习 数据工作流基线
查看分步骤安装教程和完整使用指南,快速上手这款工具
🌐 原始信息
原始名称 dataspoke-baseline
原始描述 开源AI工作流:A Baseline Product for an Omnipotent Data Catalog。⭐15 · Python
Topics ai数据管理工作流
GitHub https://github.com/selhorys/dataspoke-baseline
License Apache-2.0
语言 Python
🔗 原始来源
🐙 GitHub 仓库  https://github.com/selhorys/dataspoke-baseline

收录时间:2026-05-25 · 更新时间:2026-05-30 · License:Apache-2.0 · AI Skill Hub 不对第三方内容的准确性作法律背书。