⚙️
Agent工作流

语音AI工作流锻造台

基于 Python · 无代码搭建完整 AI 自动化流程
英文名:Speech-AI-Forge
⭐ 1.4k Stars 🍴 187 Forks 💻 Python 📄 AGPL-3.0 🏷 AI 8.2分
8.2AI 综合评分
TTS生成语音识别ChatTTS工作流Agent框架
✦ AI Skill Hub 推荐

语音AI工作流锻造台 是 AI Skill Hub 本期精选Agent工作流之一。已获得 1.4k 颗 GitHub Star,综合评分 8.2 分,整体质量较高。我们强烈推荐将其纳入你的 AI 工具库,帮助提升工作效率。

📚 深度解析
语音AI工作流锻造台 是一套完整的 AI Agent 自动化工作流方案。随着 AI 能力的不断提升,基于 Agent 的自动化工作流正在成为提升个人和团队效率的核心方式。区别于传统的 RPA 自动化(模拟鼠标键盘操作),AI Agent 工作流通过理解任务意图、动态规划执行路径,能够处理更复杂的非结构化任务。

语音AI工作流锻造台 工作流的设计遵循"最小配置,最大复用"原则:核心逻辑已经封装好,用户只需配置自己的 API Key 和业务参数即可快速上手。工作流内置错误处理和重试机制,在网络波动或 API 限速等情况下仍能稳定运行,适合作为生产环境的自动化基础设施。

在实际部署时,建议先在测试环境中运行 3-5 次,验证各个环节的输出结果符合预期,再部署到生产环境。AI Skill Hub 评分 8.2 分,是同类 Agent 工作流中的精选推荐。
📋 工具概览

基于TTS生成模型的开源AI工作流框架。整合ChatTTS、ASR、Agent等能力,支持中文语音生成、识别和对话流程编排。适合语音应用开发者、AI工程师和工作流自动化爱好者快速构建语音交互系统。

语音AI工作流锻造台 是一套完整的 AI Agent 自动化工作流方案。通过可视化的节点编排,将复杂的多步骤任务拆解为清晰的自动化流程,实现全程无人值守的智能处理。支持与数百种外部服务和 API 无缝集成,适合构建数据处理管线、业务自动化和 AI 辅助决策系统。

GitHub Stars
⭐ 1.4k
开发语言
Python
支持平台
Windows / macOS / Linux
维护状态
正常维护,社区驱动
开源协议
AGPL-3.0
AI 综合评分
8.2 分
工具类型
Agent工作流
Forks
187
📖 中文文档
以下内容由 AI Skill Hub 根据项目信息自动整理,如需查看完整原始文档请访问底部「原始来源」。

基于TTS生成模型的开源AI工作流框架。整合ChatTTS、ASR、Agent等能力,支持中文语音生成、识别和对话流程编排。适合语音应用开发者、AI工程师和工作流自动化爱好者快速构建语音交互系统。

语音AI工作流锻造台 是一套完整的 AI Agent 自动化工作流方案。通过可视化的节点编排,将复杂的多步骤任务拆解为清晰的自动化流程,实现全程无人值守的智能处理。支持与数百种外部服务和 API 无缝集成,适合构建数据处理管线、业务自动化和 AI 辅助决策系统。

📌 核心特色
  • 可视化 Agent 工作流编排,无需编写复杂代码
  • 支持多步骤自动化任务链,实现全流程无人值守
  • 与外部 API、数据库和第三方服务无缝集成
  • 内置错误处理与自动重试机制,保障稳定运行
  • 提供可复用的自动化模板,快速在同类场景部署
🎯 主要使用场景
  • 自动化日常重复性工作,将精力集中于创造性任务
  • 构建数据采集 → 处理 → 输出的完整自动化管线
  • 实现跨平台、跨系统的数据流转和业务协同
以下安装命令基于项目开发语言和类型自动生成,实际以官方 README 为准。
安装命令
# 方式一:pip 安装(推荐)
pip install speech-ai-forge

# 方式二:虚拟环境安装(推荐生产环境)
python -m venv .venv
source .venv/bin/activate  # Windows: .venv\Scripts\activate
pip install speech-ai-forge

# 方式三:从源码安装(获取最新功能)
git clone https://github.com/lenML/Speech-AI-Forge
cd Speech-AI-Forge
pip install -e .

# 验证安装
python -c "import speech_ai_forge; print('安装成功')"
📋 安装步骤说明
  1. 访问 GitHub 仓库获取工作流文件
  2. 在对应平台(Dify / Flowise / Make 等)中找到「导入工作流」功能
  3. 上传工作流文件
  4. 按照提示配置必要的环境变量和 API Key
  5. 运行测试确认流程正常后投入使用
以下用法示例由 AI Skill Hub 整理,涵盖最常见的使用场景。
常用命令 / 代码示例
# 命令行使用
speech-ai-forge --help

# 基本用法
speech-ai-forge input_file -o output_file

# Python 代码中调用
import speech_ai_forge

# 示例
result = speech_ai_forge.process("input")
print(result)
以下配置示例基于典型使用场景生成,具体参数请参照官方文档调整。
配置示例
# speech-ai-forge 配置文件示例(config.yml)
app:
  name: "speech-ai-forge"
  debug: false
  log_level: "INFO"

# 运行时指定配置文件
speech-ai-forge --config config.yml

# 或通过环境变量配置
export SPEECH_AI_FORGE_API_KEY="your-key"
export SPEECH_AI_FORGE_OUTPUT_DIR="./output"
📑 README 深度解析 真实文档 完整度 60/100 查看 GitHub 原文 →
以下内容由系统直接从 GitHub README 解析整理,保留代码块、表格与列表结构。

简介

Telegram Discord

模型支持

模型类别模型名称支持多语言实现情况
**TTS**
[Index-TTS](https://github.com/index-tts/index-tts)en, zh✅ (v1/v1.5)
[Qwen3-TTS](https://github.com/QwenLM/Qwen3-TTS)en, zh
[FishSpeech](https://github.com/fishaudio/fish-speech)en, zh, jp, ko✅ (1.4)
[CosyVoice](https://github.com/FunAudioLLM/CosyVoice)en, zh, jp, yue, ko✅ (v2/v3)
[FireRedTTS](https://github.com/FireRedTeam/FireRedTTS)en, zh
[F5-TTS](https://github.com/SWivid/F5-TTS)en, zh✅ (v0.6/v1)
[Spark-TTS](https://github.com/SparkAudio/Spark-TTS)en, zh
[GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS/tree/main)en, zh, ja, ko, yue
[ChatTTS](https://github.com/2noise/ChatTTS)en, zh
**Cloud TTS**
[MiniMax Cloud TTS](https://platform.minimaxi.com/)en, zh, jp, ko + more✅ (speech-2.8-hd/turbo)
**ASR**
[Whisper](https://github.com/openai/whisper)
[SenseVoice](https://github.com/FunAudioLLM/SenseVoice)
**Voice Clone**[OpenVoice](https://github.com/myshell-ai/OpenVoice)
**Enhancer**[ResembleEnhance](https://github.com/resemble-ai/resemble-enhance)

Installation and Running

首先,确保 相关依赖 已经正确安装,并查看 模型下载 下载所需模型

启动:

python webui.py
<details> <summary>WebUI 功能</summary>

点我看详细图文介绍

  • TTS (文本转语音): 提供多种强大的 TTS 功能
  • 音色切换 (Speaker Switch): 可选择不同音色
  • 内置音色: 提供多个内置音色,包括 27 ChatTTS / 7 CosyVoice 音色 + 1 参考音色
  • 自定义音色上传: 支持上传自定义音色文件并进行实时推理
  • 参考音色: 支持上传参考音频/文本,直接基于参考音频进行 TTS 推理
  • 风格控制 (Style): 内置多种风格控制选项,调整语音风格
  • 长文本推理 (Long Text): 支持超长文本的推理,自动分割文本
  • Batch Size: 支持设置 Batch size,提升支持批量推理模型的长文本推理速度
  • Refiner: 支持 ChatTTS 原生文本 refiner,支持无限长文本处理
  • 分割器设置 (Splitter): 调整分割器配置,控制分割结束符(eos)和分割阈值
  • 调节器 (Adjuster): 支持调整 速度/音调/音量,并增加 响度均衡 功能,优化音频输出
  • 人声增强 (Voice Enhancer): 使用 Enhancer 模型增强 TTS 输出,提高语音质量
  • 生成历史 (Generation History): 保存最近三次生成结果,便于对比和选择
  • 多模型支持 (Multi-model Support): 支持多种 TTS 模型推理,包括 ChatTTS / CosyVoice / FishSpeech / GPT-SoVITS / F5-TTS
  • SSML (语音合成标记语言): 提供高级 TTS 合成控制工具
  • 分割器 (Splitter): 精细控制长文本的分割结果
  • Podcast: 帮助创建 长文本多角色 的音频,适合博客或剧本式的语音合成
  • From Subtitle: 从字幕文件生成 SSML 脚本,方便一键生成语音
  • 脚本编辑器 (Script Editor): 新增 SSML 脚本编辑器,支持从分割器(Podcast、来自字幕)导出并编辑 SSML 脚本,进一步优化语音生成效果
  • 音色管理 (Voice Management):
  • 音色构建器 (Builder): 创建自定义音色,可从 ChatTTS seed 创建音色,或使用参考音频生成音色
  • 试音功能 (Test Voice): 上传音色文件,进行简单的试音和效果评估
  • ChatTTS 调试工具: 专门针对 ChatTTS 音色的调试工具
  • 音色抽卡 (Random Seed): 使用随机种子抽取不同的音色,生成独特的语音效果
  • 音色融合 (Blend): 融合不同种子创建的音色,获得新的语音效果
  • 音色 Hub: 从音色库中选择并下载音色到本地,访问音色仓库 Speech-AI-Forge-spks 获取更多音色资源
  • ASR (自动语音识别):
  • ASR: 使用 Whisper/SenseVoice 等模型进行高质量的语音转文本(ASR)
  • Force Aligment: 使用 Whisper 模型可以进行【文稿匹配】提高识别准确性
  • 工具 (Tools):
  • 后处理工具 (Post Process): 提供音频剪辑、调整和增强等功能,优化生成的语音质量

</details>

Docker

手动 build

  • webui: docker-compose -f ./docker-compose.webui.yml up -d
  • api: docker-compose -f ./docker-compose.api.yml up -d

环境变量配置

`launch.py`: API Server

某些情况,你并不需要 webui 或者需要更高的 api 吞吐,那么可以使用这个脚本启动单纯的 api 服务。

启动:

python launch.py

启动之后开启 http://localhost:7870/docs 可以查看开启了哪些 api 端点

更多帮助信息:

  • 通过 python launch.py -h 查看脚本参数
  • 查看 API 文档

References

  • ChatTTS: https://github.com/2noise/ChatTTS
  • PaddleSpeech: https://github.com/PaddlePaddle/PaddleSpeech
  • resemble-enhance: https://github.com/resemble-ai/resemble-enhance
  • OpenVoice: https://github.com/myshell-ai/OpenVoice
  • FishSpeech: https://github.com/fishaudio/fish-speech
  • SenseVoice: https://github.com/FunAudioLLM/SenseVoice
  • CosyVoice: https://github.com/FunAudioLLM/CosyVoice
  • FireRedTTS: https://github.com/FireRedTeam/FireRedTTS
  • F5-TTS: https://github.com/SWivid/F5-TTS
  • Index-TTS: https://github.com/index-tts/index-tts
  • Spark-TTS: https://github.com/SparkAudio/Spark-TTS
  • GPT-SoVITS: https://github.com/RVC-Boss/GPT-SoVITS
  • Qwen3-TTS: https://github.com/QwenLM/Qwen3-TTS
  • Whisper: https://github.com/openai/whisper
  • ChatTTS 默认说话人: https://github.com/2noise/ChatTTS/issues/238

模型下载

python -m scripts.download_models --source=modelscope --models="model1,model2,..."
🔍 说明: - 支持 --source=huggingface--source=modelscope--source=auto (自动根据网络环境选择hf或者ms) - 模型 ID 大小写不敏感,可忽略 -, _, / 等符号 - 例如:Qwen3-TTS-12Hz-0.6B-Base 可写作 qwen3tts12hz06bbaseqwen3-tts-0.6b-base

<details> <summary>📌 模型ID列表</summary>

模型类别内部模型 ID(可直接用于 --models
**TTS**ChatTTS
CosyVoice2-0.5B
CosyVoice_300M_Instruct
Fun-CosyVoice3-0.5B-2512
F5-TTS-V1
FireRedTTS
fish-speech-1_4
fish-speech-1.2-sft
Index-TTS-1.5
Index-TTS
Index-TTS-2
Qwen3-TTS-12Hz-0.6B-Base
Qwen3-TTS-12Hz-0.6B-CustomVoice
Qwen3-TTS-12Hz-1.7B-Base
Qwen3-TTS-12Hz-1.7B-CustomVoice
Qwen3-TTS-12Hz-1.7B-VoiceDesign
Spark-TTS-0.5B
gpt_sovits_v4
**ASR**faster-whisper-large-v3
faster-whisper-large-v3-turbo-ct2
SenseVoiceSmall
**CV / Voice Clone**OpenVoiceV2
**Enhancer**resemble-enhance
**依赖模型(Index-TTS-2 所需)**amphion/MaskGCT
nvidia/bigvgan_v2_22khz_80band_256x
funasr/campplus
facebook/w2v-bert-2.0
vocos-mel-24khz
(sense_voice依赖)fsmn-vad
🎯 aiskill88 AI 点评 A 级 2026-05-22

活跃的开源语音AI项目,结合TTS和工作流设计,核心功能完整,社区热度高。代码质量良好,适合语音应用快速原型开发。

⚡ 核心功能
👥 适合人群
自动化工程师和运维人员项目经理和业务分析师希望减少重复性工作的专业人士数字化转型团队
🎯 使用场景
  • 自动化日常重复性工作,将精力集中于创造性任务
  • 构建数据采集 → 处理 → 输出的完整自动化管线
  • 实现跨平台、跨系统的数据流转和业务协同
⚖️ 优点与不足
✅ 优点
  • +大幅减少重复性人工操作
  • +可视化流程,清晰直观
  • +可扩展性强,支持复杂场景
⚠️ 不足
  • 初始配置和调试需投入一定时间
  • 强依赖外部服务的稳定性
  • 复杂场景需具备一定技术基础
⚠️ 使用须知

该工具使用 AGPL-3.0 协议,商用场景请仔细阅读协议条款,必要时咨询法律意见。

AI Skill Hub 为第三方内容聚合平台,本页面信息基于公开数据整理,不对工具功能和质量作任何法律背书。

建议在沙箱或测试环境中充分验证后,再部署至生产环境,并做好必要的安全评估。

📄 License 说明

⚠️ AGPL 3.0 — 最严格的 Copyleft,网络服务端使用也需开源,SaaS 使用受限。

🔗 相关工具推荐
📚 相关教程推荐
❓ 常见问题 FAQ
Speech-AI-Forge 是一款Python开发的AI辅助工具。开源AI工作流:🍦 Speech-AI-Forge is a project developed around TTS generation model, implement。⭐1.4k · Python 主要应用场景包括:语音对话应用开发、语音工作流自动化、多模态AI系统构建。
💡 AI Skill Hub 点评

经综合评估,语音AI工作流锻造台 在Agent工作流赛道中表现稳健,质量优秀。如果你已有明确的使用需求,可以直接上手体验;如果还在评估阶段,建议对比同类工具后再做决策。

⬇️ 获取与下载
⬇ 下载源码(GPL)
⚠️ 本工具使用 AGPL-3.0 协议。您可以自由下载和使用,但衍生作品必须以相同协议开源,不可商业闭源。使用前请确认符合协议要求。
📚 深入学习 语音AI工作流锻造台
查看分步骤安装教程和完整使用指南,快速上手这款工具
🌐 原始信息
原始名称 Speech-AI-Forge
原始描述 开源AI工作流:🍦 Speech-AI-Forge is a project developed around TTS generation model, implement。⭐1.4k · Python
Topics TTS生成语音识别ChatTTS工作流Agent框架
GitHub https://github.com/lenML/Speech-AI-Forge
License AGPL-3.0
语言 Python
🔗 原始来源
🐙 GitHub 仓库  https://github.com/lenML/Speech-AI-Forge

收录时间:2026-05-22 · 更新时间:2026-05-22 · License:AGPL-3.0 · AI Skill Hub 不对第三方内容的准确性作法律背书。