本地大模型部署完整指南：Ollama / llama.cpp / vLLM 实战

本地部署开源 LLM 的完整方案对比。涵盖 CPU/GPU 量化、量产推理、与本地 RAG/Agent 集成。所有工具附中文部署教程。

llm_local docker

🛠 精选工具 (24)

gptme Agent工作流

gptme Agent工作流

📑 100/100 ⭐ 4.3k AI 8.2

Synthadoc

📑 100/100 ⭐ 373 AI 8.0

cordum MCP工具

cordum MCP工具

📑 100/100 ⭐ 479 AI 7.8

total-agent-memory MCP工具

total-agent-memory MCP工具

为Claude Code和Codex CLI提供持久化记忆功能的开源MCP工具。自动提取知识图谱，支持多轮对话上下文保留，适合需要长期记忆和知识积累的AI应用开发者和研究人员。

📑 100/100 ⭐ 37 AI 7.8

natively-cluely-ai-assistant — Claude Skill 中文使用文档

natively-cluely-ai-assistant — Claude Skill 中文使用文档

免费开源的AI面试助手，实时转录，隐蔽模式，局部RAG，BYOK。无订阅，防止数据泄露。

📑 100/100 ⭐ 1.3k AI 7.5

AI自动化测试

AI自动化测试

将英文测试规格转换为自愈Playwright测试

📑 100/100 ⭐ 34 AI 7.5

开源AI工作流：轻量级多租户Agent路由器

开源AI工作流：轻量级多租户Agent路由器

轻量级多租户Agent路由器，开源AI工作流，简化AI应用部署和管理

📑 100/100 ⭐ 8 AI 7.5

kb-arena开源AI工作流

kb-arena开源AI工作流

kb-arena是开源的AI工作流，用于Benchmark 9 retrieval architectures（向量、上下文、QnA、知识图谱、h等），提供了多种检索架构的基准测试

📑 100/100 ⭐ 7 AI 7.5

CrewAI 多代理协作平台

CrewAI 多代理协作平台

📑 95/100 ⭐ 51.4k AI 8.5

DeepCode Agent工作流

DeepCode Agent工作流

📑 95/100 ⭐ 15.6k AI 8.2

技能寻求者

技能寻求者

📑 95/100 ⭐ 13.5k AI 8.2

LEANN AI技能包

LEANN AI技能包

📑 95/100 ⭐ 11.0k AI 8.2

HexStrike AI MCP智能体

HexStrike AI MCP智能体

📑 95/100 ⭐ 8.7k AI 8.2

Minutes会议记录助手

Minutes会议记录助手

📑 95/100 ⭐ 1.2k AI 8.2

智能工作流

智能工作流

📑 95/100 ⭐ 5.2k AI 8.0

Augustus

LLM安全测试框架，检测prompt注入、越狱等

📑 95/100 ⭐ 227 AI 8.0

WordPress MCP管理工具

WordPress MCP管理工具

基于MCP协议的WordPress内容管理服务器，为Claude AI提供WordPress CMS系统的完整管理能力。支持文章、页面、分类等内容操作，适合需要AI辅助管理Word

📑 95/100 ⭐ 92 AI 8.0

LLM安全评估框架

LLM安全评估框架

📑 95/100 ⭐ 22 AI 8.0

PgStudio

智能PostgreSQL工具，支持构建、探索和查询

📑 95/100 ⭐ 11 AI 8.0

Cadence

📑 95/100 ⭐ 9 AI 8.0

客户支持聊天机器人

客户支持聊天机器人

基于检索增强的全生产就绪AI客户支持系统

📑 95/100 ⭐ 5 AI 8.0

反重力工作空间

反重力工作空间

📑 95/100 ⭐ 1.2k AI 7.8

MassGen多智能体系统

MassGen多智能体系统

📑 95/100 ⭐ 1.0k AI 7.8

tokensave MCP工具

tokensave MCP工具

📑 95/100 ⭐ 115 AI 7.8

❓ 常见问题

8GB 显存能跑什么模型？−

8GB 可跑 Llama 3.2 3B Q4_K_M / Phi-4 mini Q4 / Qwen2.5-7B Q3。如果 CPU 内存够也可跑更大模型 (慢)。

Ollama 和 llama.cpp 区别？+

量化版本选 Q4 还是 Q8？+