GGRun 是 AI Skill Hub 本期精选AI工具之一。综合评分 8.0 分,整体质量较高。我们强烈推荐将其纳入你的 AI 工具库,帮助提升工作效率。
GGRun 是一款基于 Go 开发的开源工具,专注于 gguf、golang、inference-server 等核心功能。作为 GitHub 开源项目,它拥有活跃的社区支持和持续的版本迭代,代码完全透明可审计,支持本地部署以保护数据隐私。无论是个人使用还是集成到企业工作流,都能提供稳定可靠的解决方案。
GGRun 是一款基于 Go 开发的开源工具,专注于 gguf、golang、inference-server 等核心功能。作为 GitHub 开源项目,它拥有活跃的社区支持和持续的版本迭代,代码完全透明可审计,支持本地部署以保护数据隐私。无论是个人使用还是集成到企业工作流,都能提供稳定可靠的解决方案。
# 方式一:go install(推荐) go install github.com/raketenkater/ggrun@latest # 方式二:从源码编译 git clone https://github.com/raketenkater/ggrun cd ggrun go build -o ggrun . # 方式三:下载预编译二进制 # 访问 Releases 页面下载对应平台二进制文件 # https://github.com/raketenkater/ggrun/releases
# 查看帮助 ggrun --help # 基本运行 ggrun [options] <input> # 详细使用说明请查阅文档 # https://github.com/raketenkater/ggrun
# ggrun 配置说明 # 查看配置选项 ggrun --config-example > config.yml # 常见配置项 # output_dir: ./output # log_level: info # workers: 4 # 环境变量(覆盖配置文件) export GGRUN_CONFIG="/path/to/config.yml"
ggrun is a small helper for llama.cpp. You point it at a GGUF and it figures out the flags, the multi-GPU split, and the MoE expert placement so you don't have to. It's good at two things: making llama.cpp easier to run, and running big MoE models that wouldn't otherwise fit — by spreading them across your GPUs and system RAM.
I started it as a script for my own mismatched 3-GPU box, where hand-writing -ngl, --tensor-split, and -ot for every model and context size got old.
ggrun model.gguf # serve a local GGUF
ggrun unsloth/Qwen3.6-27B-GGUF --download # download a fitting quant, then serve
ggrun # no arguments → interactive TUI

Linux / macOS:
curl -fsSL https://raw.githubusercontent.com/raketenkater/ggrun/main/setup.sh | bash
Windows (PowerShell):
iwr -useb https://raw.githubusercontent.com/raketenkater/ggrun/main/install.ps1 | iex
Prebuilt bundles install without compiling; Linux CUDA (ik_llama.cpp) builds from source for your GPU. Details in docs/install.md.
ggrun model.gguf --dry-run # print the llama-server command without running it
ggrun model.gguf --ai-tune # benchmark a few flag sets, cache the fastest
ggrun model.gguf --benchmark # load, measure tok/s, exit
ggrun model.gguf --claude-code # serve + launch Claude Code wired to this model
Unknown flags pass straight through to llama-server. Full list in docs/usage.md.
Security: the OpenAI-compatible API is unauthenticated and binds to127.0.0.1. To reach it from other machines, set--host 0.0.0.0and put it behind a firewall.
高性能AI模型推理工具,易于使用
AI Skill Hub 为第三方内容聚合平台,本页面信息基于公开数据整理,不对工具功能和质量作任何法律背书。
建议在沙箱或测试环境中充分验证后,再部署至生产环境,并做好必要的安全评估。
✅ MIT 协议 — 最宽松的开源协议之一,可自由商用、修改、分发,仅需保留版权声明。
经综合评估,GGRun 在AI工具赛道中表现稳健,质量优秀。如果你已有明确的使用需求,可以直接上手体验;如果还在评估阶段,建议对比同类工具后再做决策。
| 原始名称 | ggrun |
| Topics | ggufgolanginference-serverllama-cpp |
| GitHub | https://github.com/raketenkater/ggrun |
| License | MIT |
| 语言 | Go |
收录时间:2026-07-02 · 更新时间:2026-07-02 · License:MIT · AI Skill Hub 不对第三方内容的准确性作法律背书。