语音AI工作流锻造台 是 AI Skill Hub 本期精选Agent工作流之一。已获得 1.4k 颗 GitHub Star,综合评分 8.2 分,整体质量较高。我们强烈推荐将其纳入你的 AI 工具库,帮助提升工作效率。
基于TTS生成模型的开源AI工作流框架。整合ChatTTS、ASR、Agent等能力,支持中文语音生成、识别和对话流程编排。适合语音应用开发者、AI工程师和工作流自动化爱好者快速构建语音交互系统。
语音AI工作流锻造台 是一套完整的 AI Agent 自动化工作流方案。通过可视化的节点编排,将复杂的多步骤任务拆解为清晰的自动化流程,实现全程无人值守的智能处理。支持与数百种外部服务和 API 无缝集成,适合构建数据处理管线、业务自动化和 AI 辅助决策系统。
基于TTS生成模型的开源AI工作流框架。整合ChatTTS、ASR、Agent等能力,支持中文语音生成、识别和对话流程编排。适合语音应用开发者、AI工程师和工作流自动化爱好者快速构建语音交互系统。
语音AI工作流锻造台 是一套完整的 AI Agent 自动化工作流方案。通过可视化的节点编排,将复杂的多步骤任务拆解为清晰的自动化流程,实现全程无人值守的智能处理。支持与数百种外部服务和 API 无缝集成,适合构建数据处理管线、业务自动化和 AI 辅助决策系统。
# 方式一:pip 安装(推荐)
pip install speech-ai-forge
# 方式二:虚拟环境安装(推荐生产环境)
python -m venv .venv
source .venv/bin/activate # Windows: .venv\Scripts\activate
pip install speech-ai-forge
# 方式三:从源码安装(获取最新功能)
git clone https://github.com/lenML/Speech-AI-Forge
cd Speech-AI-Forge
pip install -e .
# 验证安装
python -c "import speech_ai_forge; print('安装成功')"
# 命令行使用
speech-ai-forge --help
# 基本用法
speech-ai-forge input_file -o output_file
# Python 代码中调用
import speech_ai_forge
# 示例
result = speech_ai_forge.process("input")
print(result)
# speech-ai-forge 配置文件示例(config.yml) app: name: "speech-ai-forge" debug: false log_level: "INFO" # 运行时指定配置文件 speech-ai-forge --config config.yml # 或通过环境变量配置 export SPEECH_AI_FORGE_API_KEY="your-key" export SPEECH_AI_FORGE_OUTPUT_DIR="./output"
| 模型类别 | 模型名称 | 支持多语言 | 实现情况 |
|---|---|---|---|
| **TTS** | |||
| [Index-TTS](https://github.com/index-tts/index-tts) | en, zh | ✅ (v1/v1.5) | |
| [Qwen3-TTS](https://github.com/QwenLM/Qwen3-TTS) | en, zh | ✅ | |
| [FishSpeech](https://github.com/fishaudio/fish-speech) | en, zh, jp, ko | ✅ (1.4) | |
| [CosyVoice](https://github.com/FunAudioLLM/CosyVoice) | en, zh, jp, yue, ko | ✅ (v2/v3) | |
| [FireRedTTS](https://github.com/FireRedTeam/FireRedTTS) | en, zh | ✅ | |
| [F5-TTS](https://github.com/SWivid/F5-TTS) | en, zh | ✅ (v0.6/v1) | |
| [Spark-TTS](https://github.com/SparkAudio/Spark-TTS) | en, zh | ✅ | |
| [GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS/tree/main) | en, zh, ja, ko, yue | ✅ | |
| [ChatTTS](https://github.com/2noise/ChatTTS) | en, zh | ✅ | |
| **Cloud TTS** | |||
| [MiniMax Cloud TTS](https://platform.minimaxi.com/) | en, zh, jp, ko + more | ✅ (speech-2.8-hd/turbo) | |
| **ASR** | |||
| [Whisper](https://github.com/openai/whisper) | ✅ | ✅ | |
| [SenseVoice](https://github.com/FunAudioLLM/SenseVoice) | ✅ | ✅ | |
| **Voice Clone** | [OpenVoice](https://github.com/myshell-ai/OpenVoice) | — | ✅ |
| **Enhancer** | [ResembleEnhance](https://github.com/resemble-ai/resemble-enhance) | — | ✅ |
首先,确保 相关依赖 已经正确安装,并查看 模型下载 下载所需模型
启动:
python webui.py <details> <summary>WebUI 功能</summary>
27 ChatTTS / 7 CosyVoice 音色 + 1 参考音色Batch size,提升支持批量推理模型的长文本推理速度ChatTTS 原生文本 refiner,支持无限长文本处理eos)和分割阈值速度/音调/音量,并增加 响度均衡 功能,优化音频输出Enhancer 模型增强 TTS 输出,提高语音质量ChatTTS / CosyVoice / FishSpeech / GPT-SoVITS / F5-TTS 等长文本、多角色 的音频,适合博客或剧本式的语音合成ChatTTS 音色的调试工具</details>
docker-compose -f ./docker-compose.webui.yml up -ddocker-compose -f ./docker-compose.api.yml up -d环境变量配置
某些情况,你并不需要 webui 或者需要更高的 api 吞吐,那么可以使用这个脚本启动单纯的 api 服务。
启动:
python launch.py
启动之后开启 http://localhost:7870/docs 可以查看开启了哪些 api 端点
更多帮助信息:
python launch.py -h 查看脚本参数python -m scripts.download_models --source=modelscope --models="model1,model2,..."
🔍 说明: - 支持--source=huggingface或--source=modelscope或--source=auto(自动根据网络环境选择hf或者ms) - 模型 ID 大小写不敏感,可忽略-,_,/等符号 - 例如:Qwen3-TTS-12Hz-0.6B-Base可写作qwen3tts12hz06bbase或qwen3-tts-0.6b-base
<details> <summary>📌 模型ID列表</summary>
| 模型类别 | 内部模型 ID(可直接用于 --models) |
|---|---|
| **TTS** | ChatTTS |
CosyVoice2-0.5B | |
CosyVoice_300M_Instruct | |
Fun-CosyVoice3-0.5B-2512 | |
F5-TTS-V1 | |
FireRedTTS | |
fish-speech-1_4 | |
fish-speech-1.2-sft | |
Index-TTS-1.5 | |
Index-TTS | |
Index-TTS-2 | |
Qwen3-TTS-12Hz-0.6B-Base | |
Qwen3-TTS-12Hz-0.6B-CustomVoice | |
Qwen3-TTS-12Hz-1.7B-Base | |
Qwen3-TTS-12Hz-1.7B-CustomVoice | |
Qwen3-TTS-12Hz-1.7B-VoiceDesign | |
Spark-TTS-0.5B | |
gpt_sovits_v4 | |
| **ASR** | faster-whisper-large-v3 |
faster-whisper-large-v3-turbo-ct2 | |
SenseVoiceSmall | |
| **CV / Voice Clone** | OpenVoiceV2 |
| **Enhancer** | resemble-enhance |
| **依赖模型(Index-TTS-2 所需)** | amphion/MaskGCT |
nvidia/bigvgan_v2_22khz_80band_256x | |
funasr/campplus | |
facebook/w2v-bert-2.0 | |
vocos-mel-24khz | |
| (sense_voice依赖) | fsmn-vad |
活跃的开源语音AI项目,结合TTS和工作流设计,核心功能完整,社区热度高。代码质量良好,适合语音应用快速原型开发。
该工具使用 AGPL-3.0 协议,商用场景请仔细阅读协议条款,必要时咨询法律意见。
AI Skill Hub 为第三方内容聚合平台,本页面信息基于公开数据整理,不对工具功能和质量作任何法律背书。
建议在沙箱或测试环境中充分验证后,再部署至生产环境,并做好必要的安全评估。
⚠️ AGPL 3.0 — 最严格的 Copyleft,网络服务端使用也需开源,SaaS 使用受限。
经综合评估,语音AI工作流锻造台 在Agent工作流赛道中表现稳健,质量优秀。如果你已有明确的使用需求,可以直接上手体验;如果还在评估阶段,建议对比同类工具后再做决策。
| 原始名称 | Speech-AI-Forge |
| 原始描述 | 开源AI工作流:🍦 Speech-AI-Forge is a project developed around TTS generation model, implement。⭐1.4k · Python |
| Topics | TTS生成语音识别ChatTTS工作流Agent框架 |
| GitHub | https://github.com/lenML/Speech-AI-Forge |
| License | AGPL-3.0 |
| 语言 | Python |
收录时间:2026-05-22 · 更新时间:2026-05-22 · License:AGPL-3.0 · AI Skill Hub 不对第三方内容的准确性作法律背书。
选择 Agent 类型,复制安装指令后粘贴到对应客户端