📄 工具详情 ⚙️ 安装教程 📚 使用教程

能力标签

🌐 翻译 🐳 Docker 🔗 REST API 🔊 TTS 🎙 STT ✨ GPT 🖥 本地 LLM

⚙️

Agent工作流

语音AI工作流锻造台

Q: Speech-AI-Forge 如何安装和开始使用？

访问 Speech-AI-Forge 的 GitHub 仓库或官方网站，按照 README 文档中的步骤安装依赖并运行。通常需要 Python 3.8+ 或 Node.js 16+ 基础环境。

Q: Speech-AI-Forge 是否免费？许可证是什么？

Speech-AI-Forge 完全免费，采用 AGPL-3.0 许可证开源发布，任何人都可以免费使用、修改和分发。

Q: Speech-AI-Forge 适合哪些用户使用？

Speech-AI-Forge 对初学者友好，无需深厚技术背景即可快速上手。同时也适合有经验的开发者和 AI 工程师进行深度定制。

Q: Speech-AI-Forge 的社区活跃度和项目维护状况如何？

Speech-AI-Forge 在 GitHub 上已获得 1,409 个 Star，处于积极发展阶段，社区在持续扩大。

基于 Python · 无代码搭建完整 AI 自动化流程

英文名：Speech-AI-Forge

⭐ 1.4k Stars 🍴 187 Forks 💻 Python 📄 AGPL-3.0 🏷 AI 8.2分

8.2AI 综合评分

TTS生成语音识别ChatTTS工作流Agent框架

⬇ 下载源码（GPL） ⚙️ 配置说明 📺 TG 频道

✦ AI Skill Hub 推荐

语音AI工作流锻造台是 AI Skill Hub 本期精选Agent工作流之一。已获得 1.4k 颗 GitHub Star，综合评分 8.2 分，整体质量较高。我们强烈推荐将其纳入你的 AI 工具库，帮助提升工作效率。

📚 深度解析

语音AI工作流锻造台是一套完整的 AI Agent 自动化工作流方案。随着 AI 能力的不断提升，基于 Agent 的自动化工作流正在成为提升个人和团队效率的核心方式。区别于传统的 RPA 自动化（模拟鼠标键盘操作），AI Agent 工作流通过理解任务意图、动态规划执行路径，能够处理更复杂的非结构化任务。

语音AI工作流锻造台工作流的设计遵循"最小配置，最大复用"原则：核心逻辑已经封装好，用户只需配置自己的 API Key 和业务参数即可快速上手。工作流内置错误处理和重试机制，在网络波动或 API 限速等情况下仍能稳定运行，适合作为生产环境的自动化基础设施。

在实际部署时，建议先在测试环境中运行 3-5 次，验证各个环节的输出结果符合预期，再部署到生产环境。AI Skill Hub 评分 8.2 分，是同类 Agent 工作流中的精选推荐。

📋 工具概览

基于TTS生成模型的开源AI工作流框架。整合ChatTTS、ASR、Agent等能力，支持中文语音生成、识别和对话流程编排。适合语音应用开发者、AI工程师和工作流自动化爱好者快速构建语音交互系统。

语音AI工作流锻造台是一套完整的 AI Agent 自动化工作流方案。通过可视化的节点编排，将复杂的多步骤任务拆解为清晰的自动化流程，实现全程无人值守的智能处理。支持与数百种外部服务和 API 无缝集成，适合构建数据处理管线、业务自动化和 AI 辅助决策系统。

GitHub Stars

⭐ 1.4k

开发语言

Python

支持平台

Windows / macOS / Linux

维护状态

正常维护，社区驱动

开源协议

AGPL-3.0

AI 综合评分

8.2 分

工具类型

Agent工作流

Forks

187

📖 中文文档

以下内容由 AI Skill Hub 根据项目信息自动整理，如需查看完整原始文档请访问底部「原始来源」。

📌 核心特色

可视化 Agent 工作流编排，无需编写复杂代码
支持多步骤自动化任务链，实现全流程无人值守
与外部 API、数据库和第三方服务无缝集成
内置错误处理与自动重试机制，保障稳定运行
提供可复用的自动化模板，快速在同类场景部署

🎯 主要使用场景

自动化日常重复性工作，将精力集中于创造性任务
构建数据采集 → 处理 → 输出的完整自动化管线
实现跨平台、跨系统的数据流转和业务协同

以下安装命令基于项目开发语言和类型自动生成，实际以官方 README 为准。

安装命令

# 方式一：pip 安装（推荐）
pip install speech-ai-forge

# 方式二：虚拟环境安装（推荐生产环境）
python -m venv .venv
source .venv/bin/activate  # Windows: .venv\Scripts\activate
pip install speech-ai-forge

# 方式三：从源码安装（获取最新功能）
git clone https://github.com/lenML/Speech-AI-Forge
cd Speech-AI-Forge
pip install -e .

# 验证安装
python -c "import speech_ai_forge; print('安装成功')"

📋 安装步骤说明

访问 GitHub 仓库获取工作流文件
在对应平台（Dify / Flowise / Make 等）中找到「导入工作流」功能
上传工作流文件
按照提示配置必要的环境变量和 API Key
运行测试确认流程正常后投入使用

以下用法示例由 AI Skill Hub 整理，涵盖最常见的使用场景。

常用命令 / 代码示例

# 命令行使用
speech-ai-forge --help

# 基本用法
speech-ai-forge input_file -o output_file

# Python 代码中调用
import speech_ai_forge

# 示例
result = speech_ai_forge.process("input")
print(result)

以下配置示例基于典型使用场景生成，具体参数请参照官方文档调整。

配置示例

# speech-ai-forge 配置文件示例（config.yml）
app:
  name: "speech-ai-forge"
  debug: false
  log_level: "INFO"

# 运行时指定配置文件
speech-ai-forge --config config.yml

# 或通过环境变量配置
export SPEECH_AI_FORGE_API_KEY="your-key"
export SPEECH_AI_FORGE_OUTPUT_DIR="./output"

📑 README 深度解析真实文档完整度 60/100 查看 GitHub 原文 →

以下内容由系统直接从 GitHub README 解析整理，保留代码块、表格与列表结构。

简介

模型支持

模型类别	模型名称	支持多语言	实现情况
TTS
	[Index-TTS](https://github.com/index-tts/index-tts)	en, zh	✅ (v1/v1.5)
	[Qwen3-TTS](https://github.com/QwenLM/Qwen3-TTS)	en, zh	✅
	[FishSpeech](https://github.com/fishaudio/fish-speech)	en, zh, jp, ko	✅ (1.4)
	[CosyVoice](https://github.com/FunAudioLLM/CosyVoice)	en, zh, jp, yue, ko	✅ (v2/v3)
	[FireRedTTS](https://github.com/FireRedTeam/FireRedTTS)	en, zh	✅
	[F5-TTS](https://github.com/SWivid/F5-TTS)	en, zh	✅ (v0.6/v1)
	[Spark-TTS](https://github.com/SparkAudio/Spark-TTS)	en, zh	✅
	[GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS/tree/main)	en, zh, ja, ko, yue	✅
	[ChatTTS](https://github.com/2noise/ChatTTS)	en, zh	✅
Cloud TTS
	[MiniMax Cloud TTS](https://platform.minimaxi.com/)	en, zh, jp, ko + more	✅ (speech-2.8-hd/turbo)
ASR
	[Whisper](https://github.com/openai/whisper)	✅	✅
	[SenseVoice](https://github.com/FunAudioLLM/SenseVoice)	✅	✅
Voice Clone	[OpenVoice](https://github.com/myshell-ai/OpenVoice)	—	✅
Enhancer	[ResembleEnhance](https://github.com/resemble-ai/resemble-enhance)	—	✅

Installation and Running

首先，确保相关依赖已经正确安装，并查看模型下载下载所需模型

启动：

python webui.py

<details> <summary>WebUI 功能</summary>

点我看详细图文介绍

TTS (文本转语音): 提供多种强大的 TTS 功能

音色切换 (Speaker Switch): 可选择不同音色
内置音色: 提供多个内置音色，包括 27 ChatTTS / 7 CosyVoice 音色 + 1 参考音色
自定义音色上传: 支持上传自定义音色文件并进行实时推理
参考音色: 支持上传参考音频/文本，直接基于参考音频进行 TTS 推理
风格控制 (Style): 内置多种风格控制选项，调整语音风格
长文本推理 (Long Text): 支持超长文本的推理，自动分割文本
Batch Size: 支持设置 Batch size，提升支持批量推理模型的长文本推理速度
Refiner: 支持 ChatTTS 原生文本 refiner，支持无限长文本处理
分割器设置 (Splitter): 调整分割器配置，控制分割结束符（eos）和分割阈值
调节器 (Adjuster): 支持调整 速度/音调/音量，并增加 响度均衡 功能，优化音频输出
人声增强 (Voice Enhancer): 使用 Enhancer 模型增强 TTS 输出，提高语音质量
生成历史 (Generation History): 保存最近三次生成结果，便于对比和选择
多模型支持 (Multi-model Support): 支持多种 TTS 模型推理，包括 ChatTTS / CosyVoice / FishSpeech / GPT-SoVITS / F5-TTS 等

SSML (语音合成标记语言): 提供高级 TTS 合成控制工具

分割器 (Splitter): 精细控制长文本的分割结果
Podcast: 帮助创建 长文本、多角色 的音频，适合博客或剧本式的语音合成
From Subtitle: 从字幕文件生成 SSML 脚本，方便一键生成语音
脚本编辑器 (Script Editor): 新增 SSML 脚本编辑器，支持从分割器（Podcast、来自字幕）导出并编辑 SSML 脚本，进一步优化语音生成效果

音色管理 (Voice Management):

音色构建器 (Builder): 创建自定义音色，可从 ChatTTS seed 创建音色，或使用参考音频生成音色
试音功能 (Test Voice): 上传音色文件，进行简单的试音和效果评估
ChatTTS 调试工具: 专门针对 ChatTTS 音色的调试工具
音色抽卡 (Random Seed): 使用随机种子抽取不同的音色，生成独特的语音效果
音色融合 (Blend): 融合不同种子创建的音色，获得新的语音效果
音色 Hub: 从音色库中选择并下载音色到本地，访问音色仓库 Speech-AI-Forge-spks 获取更多音色资源

ASR (自动语音识别):

ASR: 使用 Whisper/SenseVoice 等模型进行高质量的语音转文本（ASR）
Force Aligment: 使用 Whisper 模型可以进行【文稿匹配】提高识别准确性

工具 (Tools):
后处理工具 (Post Process): 提供音频剪辑、调整和增强等功能，优化生成的语音质量

</details>

Docker

手动 build

webui: docker-compose -f ./docker-compose.webui.yml up -d
api: docker-compose -f ./docker-compose.api.yml up -d

环境变量配置

webui: .env.webui
api: .env.api

`launch.py`: API Server

某些情况，你并不需要 webui 或者需要更高的 api 吞吐，那么可以使用这个脚本启动单纯的 api 服务。

启动：

python launch.py

启动之后开启 http://localhost:7870/docs 可以查看开启了哪些 api 端点

更多帮助信息:

通过 python launch.py -h 查看脚本参数
查看 API 文档

References

ChatTTS: https://github.com/2noise/ChatTTS
PaddleSpeech: https://github.com/PaddlePaddle/PaddleSpeech
resemble-enhance: https://github.com/resemble-ai/resemble-enhance
OpenVoice: https://github.com/myshell-ai/OpenVoice
FishSpeech: https://github.com/fishaudio/fish-speech
SenseVoice: https://github.com/FunAudioLLM/SenseVoice
CosyVoice: https://github.com/FunAudioLLM/CosyVoice
FireRedTTS: https://github.com/FireRedTeam/FireRedTTS
F5-TTS: https://github.com/SWivid/F5-TTS
Index-TTS: https://github.com/index-tts/index-tts
Spark-TTS: https://github.com/SparkAudio/Spark-TTS
GPT-SoVITS: https://github.com/RVC-Boss/GPT-SoVITS
Qwen3-TTS: https://github.com/QwenLM/Qwen3-TTS

Whisper: https://github.com/openai/whisper

ChatTTS 默认说话人: https://github.com/2noise/ChatTTS/issues/238

模型下载

python -m scripts.download_models --source=modelscope --models="model1,model2,..."

🔍 说明： - 支持 --source=huggingface 或 --source=modelscope 或 --source=auto （自动根据网络环境选择hf或者ms） - 模型 ID 大小写不敏感，可忽略 -, _, / 等符号 - 例如：Qwen3-TTS-12Hz-0.6B-Base 可写作 qwen3tts12hz06bbase 或 qwen3-tts-0.6b-base

<details> <summary>📌 模型ID列表</summary>

模型类别	内部模型 ID（可直接用于 `--models`）
TTS	`ChatTTS`
	`CosyVoice2-0.5B`
	`CosyVoice_300M_Instruct`
	`Fun-CosyVoice3-0.5B-2512`
	`F5-TTS-V1`
	`FireRedTTS`
	`fish-speech-1_4`
	`fish-speech-1.2-sft`
	`Index-TTS-1.5`
	`Index-TTS`
	`Index-TTS-2`
	`Qwen3-TTS-12Hz-0.6B-Base`
	`Qwen3-TTS-12Hz-0.6B-CustomVoice`
	`Qwen3-TTS-12Hz-1.7B-Base`
	`Qwen3-TTS-12Hz-1.7B-CustomVoice`
	`Qwen3-TTS-12Hz-1.7B-VoiceDesign`
	`Spark-TTS-0.5B`
	`gpt_sovits_v4`
ASR	`faster-whisper-large-v3`
	`faster-whisper-large-v3-turbo-ct2`
	`SenseVoiceSmall`
CV / Voice Clone	`OpenVoiceV2`
Enhancer	`resemble-enhance`
依赖模型（Index-TTS-2 所需）	`amphion/MaskGCT`
	`nvidia/bigvgan_v2_22khz_80band_256x`
	`funasr/campplus`
	`facebook/w2v-bert-2.0`
	`vocos-mel-24khz`
(sense_voice依赖)	`fsmn-vad`

FAQ

Goto Discussion Page

🎯 aiskill88 AI 点评 A 级 2026-05-22

活跃的开源语音AI项目，结合TTS和工作流设计，核心功能完整，社区热度高。代码质量良好，适合语音应用快速原型开发。

📚 实用指南（长尾问题）

适合谁

构建多智能体协作系统的 Agent 开发者
跨境业务、多语言内容运营团队
做语音类 AI 产品的开发者

最佳实践

生产部署优先使用 Docker Compose 隔离依赖，并挂载 volume 持久化数据
本地部署优先选 GGUF 量化模型，节省显存并保持响应速度
Agent 任务先做 dry-run 验证工具调用链，再开启自主执行

常见错误

API key 直接提交到 git 仓库（请用 .env 并加入 .gitignore）
容器内无法访问宿主机 localhost — 使用 host.docker.internal
显存不足直接 OOM — 优先降低 context 或换更小的量化模型
Python 依赖冲突：建议用 venv / uv 隔离环境

部署方案

Docker：Speech-AI-Forge 提供官方镜像，docker compose up 一键启动
本地部署：CPU 8GB 起，GPU 推荐 16GB+ 显存
云端托管：可放在 Vercel / Railway / Fly.io 等 PaaS 平台

⚡ 核心功能

可视化 Agent 工作流编排，无需编写复杂代码
支持多步骤自动化任务链，实现全流程无人值守
与外部 API、数据库和第三方服务无缝集成
内置错误处理与自动重试机制，保障稳定运行
提供可复用的自动化模板，快速在同类场景部署

👥 适合谁

构建多智能体协作系统的 Agent 开发者
跨境业务、多语言内容运营团队
做语音类 AI 产品的开发者

⭐ 最佳实践

生产部署优先使用 Docker Compose 隔离依赖，并挂载 volume 持久化数据
本地部署优先选 GGUF 量化模型，节省显存并保持响应速度
Agent 任务先做 dry-run 验证工具调用链，再开启自主执行

⚠️ 常见错误

API key 直接提交到 git 仓库（请用 .env 并加入 .gitignore）
容器内无法访问宿主机 localhost — 使用 host.docker.internal
显存不足直接 OOM — 优先降低 context 或换更小的量化模型
Python 依赖冲突：建议用 venv / uv 隔离环境

👥 适合人群

自动化工程师和运维人员项目经理和业务分析师希望减少重复性工作的专业人士数字化转型团队

🎯 使用场景

自动化日常重复性工作，将精力集中于创造性任务
构建数据采集 → 处理 → 输出的完整自动化管线
实现跨平台、跨系统的数据流转和业务协同

⚖️ 优点与不足

✅ 优点

+大幅减少重复性人工操作
+可视化流程，清晰直观
+可扩展性强，支持复杂场景

⚠️ 不足

−初始配置和调试需投入一定时间
−强依赖外部服务的稳定性
−复杂场景需具备一定技术基础

⚠️ 使用须知

该工具使用 AGPL-3.0 协议，商用场景请仔细阅读协议条款，必要时咨询法律意见。

AI Skill Hub 为第三方内容聚合平台，本页面信息基于公开数据整理，不对工具功能和质量作任何法律背书。

建议在沙箱或测试环境中充分验证后，再部署至生产环境，并做好必要的安全评估。

📄 License 说明

⚠️ AGPL 3.0 — 最严格的 Copyleft，网络服务端使用也需开源，SaaS 使用受限。

🔗 相关工具推荐

browser-use Agent工作流

Agent工作流

LLM资源合集（精选）

精选100+可直接运行的AI Agent和RAG应用集合。包含完整工作流示例、智能代理框架和检索增强生成系统。适合AI开

📚 相关教程推荐

Whisper 对比：2025 年最佳语音识别/字幕生成工具横评

帮助中心 · AI Skill Hub

Whisper 对比：2025 年最佳语音识别/字幕生成工具横评

帮助中心 · AI Skill Hub

Whisper 对比：2025 年最佳语音识别/字幕生成工具横评

帮助中心 · AI Skill Hub

Whisper 对比：2025 年最佳语音识别/字幕生成工具横评

帮助中心 · AI Skill Hub

📰 相关 AI 新闻

OpenAI 最新产品与研究动态

AI 资讯 · 知识关联

AI 前沿资讯：GPT Guesses Between 1 and 100

🍿 AI 圈相关吃瓜

AutoGPT 自主完成了任务：把我的文件夹全部重命名了

AI 圈观察

GPT 说"这可能不准确"，然后接着说了5分钟不准确的内容

AI 圈观察

n8n 工作流跑到第11步，在一个逗号上崩了

AI 圈观察

🗺️ 相关解决方案

translation

ai-translation-pipeline

🧩 你可能还需要

基于当前 Skill 的能力图谱，自动补全的工具组合

技能寻求者

MCP · Agent · 工作流

natively-cluely-ai-assistant — Claude Skill 中文使用文档

免费开源的AI面试助手，实时转录，隐蔽模式，局部RAG，BYOK。无订阅，防止数据泄露。

kb-arena是开源的AI工作流，用于Benchmark 9 retrieval architectures（向量、上下文、QnA、知识图

❓ 常见问题 FAQ

Speech-AI-Forge 是什么工具？−

Speech-AI-Forge 是一款Python开发的AI辅助工具。开源AI工作流：🍦 Speech-AI-Forge is a project developed around TTS generation model, implement。⭐1.4k · Python 主要应用场景包括：语音对话应用开发、语音工作流自动化、多模态AI系统构建。

Speech-AI-Forge 如何安装和开始使用？+

Speech-AI-Forge 是否免费？许可证是什么？+

Speech-AI-Forge 适合哪些用户使用？+

Speech-AI-Forge 的社区活跃度和项目维护状况如何？+

什么是 Agent 工作流？和普通自动化有什么区别？+

导入工作流后，我需要修改哪些配置？+

工作流运行失败了，如何排查问题？+

💡 AI Skill Hub 点评

经综合评估，语音AI工作流锻造台在Agent工作流赛道中表现稳健，质量优秀。如果你已有明确的使用需求，可以直接上手体验；如果还在评估阶段，建议对比同类工具后再做决策。

⬇️ 获取与下载

⬇ 下载源码（GPL）

⚠️ 本工具使用 AGPL-3.0 协议。您可以自由下载和使用，但衍生作品必须以相同协议开源，不可商业闭源。使用前请确认符合协议要求。

📚 深入学习语音AI工作流锻造台

查看分步骤安装教程和完整使用指南，快速上手这款工具

⚙️ 安装教程 📚 使用教程

🌐 原始信息

原始名称	`Speech-AI-Forge`
原始描述	开源AI工作流：🍦 Speech-AI-Forge is a project developed around TTS generation model, implement。⭐1.4k · Python
Topics	`TTS生成语音识别ChatTTS工作流Agent框架`
GitHub	https://github.com/lenML/Speech-AI-Forge
License	AGPL-3.0
语言	Python

🔗 原始来源

🐙 GitHub 仓库 https://github.com/lenML/Speech-AI-Forge

收录时间：2026-05-22 · 更新时间：2026-05-30 · License：AGPL-3.0 · AI Skill Hub 不对第三方内容的准确性作法律背书。

📺 订阅 AI Skill Hub Daily Telegram 频道

每天 8 条精选 AI Skill、MCP、Agent 与自动化工具推送

加入频道 →

语音AI工作流锻造台

📚 深度解析

📋 工具概览

📖 中文文档

简介

模型支持

Installation and Running

Docker

手动 build

`launch.py`: API Server

References

模型下载

FAQ

⚡ 核心功能

👥 适合人群

🎯 使用场景

⚖️ 优点与不足

🔗 相关工具推荐

❓ 常见问题 FAQ

🤖 交给 Agent 安装 · 语音AI工作流锻造台