AI Skill Hub 推荐使用:vLLM-Rust轻量版 是一款优质的AI工具。AI 综合评分 7.2 分,在同类工具中表现稳健。如果你正在寻找可靠的AI工具解决方案,这是一个值得深入了解的选择。
用Rust语言实现的极简vLLM引擎,专注于大语言模型推理优化。支持多种LLM模型(如Qwen),具有高性能、低内存占用的特点。适合对性能要求高的开发者和想要深入理解LLM推理机制的研究人员。
vLLM-Rust轻量版 是一款基于 Rust 开发的开源工具,专注于 Rust、LLM推理、vLLM 等核心功能。作为 GitHub 开源项目,它拥有活跃的社区支持和持续的版本迭代,代码完全透明可审计,支持本地部署以保护数据隐私。无论是个人使用还是集成到企业工作流,都能提供稳定可靠的解决方案。
用Rust语言实现的极简vLLM引擎,专注于大语言模型推理优化。支持多种LLM模型(如Qwen),具有高性能、低内存占用的特点。适合对性能要求高的开发者和想要深入理解LLM推理机制的研究人员。
vLLM-Rust轻量版 是一款基于 Rust 开发的开源工具,专注于 Rust、LLM推理、vLLM 等核心功能。作为 GitHub 开源项目,它拥有活跃的社区支持和持续的版本迭代,代码完全透明可审计,支持本地部署以保护数据隐私。无论是个人使用还是集成到企业工作流,都能提供稳定可靠的解决方案。
# 方式一:cargo install(推荐) cargo install vllm.rs # 方式二:从源码编译 git clone https://github.com/guoqingbao/vllm.rs cd vllm.rs cargo build --release # 二进制在 ./target/release/vllm.rs
# 查看帮助 vllm.rs --help # 基本运行 vllm.rs [options] <input> # 详细使用说明请查阅文档 # https://github.com/guoqingbao/vllm.rs
# vllm.rs 配置说明 # 查看配置选项 vllm.rs --config-example > config.yml # 常见配置项 # output_dir: ./output # log_level: info # workers: 4 # 环境变量(覆盖配置文件) export VLLM.RS_CONFIG="/path/to/config.yml"
Blazing-fast LLM inference in pure Rust. No PyTorch. No Python runtime. Just fast, portable, production-ready inference.
<p align="center"> <a href="./ReadMe.md">English</a> | <a href="./ReadMe-CN.md">简体中文</a> </p>
---
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh sudo apt-get install -y git build-essential libssl-dev pkg-config
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh sudo apt-get install -y git build-essential libssl-dev pkg-config
export VLLM_RS_REPO="https://github.com/guoqingbao/vllm.rs"
cargo install --git $VLLM_RS_REPO vllm-rs --features cuda,nccl,flashinfer,cutlass
- 💡Turing/V100 (SM70/SM75), Hopper (SM90) / Blackwell (SM100+): download wheel from GitHub Releases; ```bash
- 💡Change sm_xx to sm_70/sm_75 (Turing/V100, remove flashinfer and cutlass features), sm_80/sm_89 (Ampere), sm_90 (Hopper), sm_100/sm_120 (Blackwell) ```bash
<details> <summary><b>CUDA (Linux)</b></summary>
```bash
./build.sh --install --features cuda,nccl,flashinfer,cutlass
cargo install --features metal
</details>
<details>
<summary><b>Docker</b></summary>
bash
pip install target/wheels/vllm_rs-*.whl --force-reinstall ```
</details>
---
./build_docker.sh "cuda,nccl,flashinfer,cutlass" sm_90 13.0.0 ```
See Docker guide →
---
<video src="https://github.com/user-attachments/assets/7fc6aa0b-78ac-4323-923f-d761dd12857f" width="1000px"></video>
---
```bash
sudo apt-get install -y cuda-nvcc-12-9 cuda-nvrtc-dev-12-9 libcublas-dev-12-9 libcurand-dev-12-9 sudo apt-get install -y libnccl2 libnccl-dev
vllm-rs --i --m unsloth/Qwen3.5-27B-GGUF --f Qwen3.5-27B-Q4_K_M.gguf
<details>
<summary><b>ISQ (on-the-fly quantization) + KV cache compression</b></summary>
bash
vllm-rs --d 2,3 --w /path/Qwen3-30B-A3B-Instruct-2507 --isq q4k --ui-server --port 8000 --pd-client
**Multinode** (tcp mode)
bash
| Flag | Description |
|---|---|
--m | HuggingFace model ID (auto-download) |
--w | Local Safetensors model path |
--f | GGUF file path (or filename when --m is given) |
--d | Device IDs (e.g. --d 0,1) |
--ui-server | API server + built-in ChatGPT-style web UI |
--server | API server only (no web UI) |
--i | Interactive CLI chat |
--isq | On-the-fly quantization: q2k, q3k, q4k, q5k, q6k, q8_0 |
--kvcache-dtype | KV cache quantization: fp8, turbo8, turbo4, turbo3 |
--max-num-seqs | Max concurrent requests (default: 32, macOS: 8) |
--max-tokens | Max tokens per response (default: 16384) |
--kv-fraction | GPU memory fraction for KV cache |
--cpu-mem-fold | CPU swap memory ratio (default: 0.2) |
--pd-server | Run as PD prefill server |
--pd-client | Run as PD decode client |
--pd-url | PD connection URL (tcp://, http://, file://) |
--disable-prefix-cache | Disable prefix caching |
--prefix-cache-max-tokens | Cap prefix cache size |
--disable-cuda-graph | Disable CUDA graph capture |
--yarn-scaling-factor | YARN RoPE context extension factor |
--temperature | Sampling temperature (0–1) |
--top-k / --top-p | Top-k / nucleus sampling |
--presence-penalty | Penalize repeated tokens (−2 to 2) |
--frequency-penalty | Penalize frequent tokens (−2 to 2) |
--mcp-config | MCP servers JSON config |
--mcp-command / --mcp-args | Single MCP server command + args |
---
Formats: Safetensors (BF16, FP8-blockwise, GPTQ, AWQ, MXFP4, NVFP4) | GGUF (all quant types) | ISQ (on-the-fly quantization)
./build.sh --install --features cuda,nccl,flashattn,cutlass
创新的Rust版vLLM实现,性能优势明显但生态还不完善。适合对Rust感兴趣的开发者和性能要求极高的场景。维护活跃度需继续观察。
AI Skill Hub 为第三方内容聚合平台,本页面信息基于公开数据整理,不对工具功能和质量作任何法律背书。
建议在沙箱或测试环境中充分验证后,再部署至生产环境,并做好必要的安全评估。
✅ MIT 协议 — 最宽松的开源协议之一,可自由商用、修改、分发,仅需保留版权声明。
总体来看,vLLM-Rust轻量版 是一款质量良好的AI工具,在同类工具中具备一定竞争力。AI Skill Hub 将持续追踪其更新动态,建议收藏备用,结合自身场景选择合适时机引入使用。
| 原始名称 | vllm-rs |
| 原始描述 | 开源AI工作流:Minimalist vLLM implementation in Rust。⭐208 · Rust |
| Topics | RustLLM推理vLLM高性能工作流 |
| GitHub | https://github.com/guoqingbao/vllm.rs |
| License | MIT |
| 语言 | Rust |
收录时间:2026-05-21 · 更新时间:2026-05-22 · License:MIT · AI Skill Hub 不对第三方内容的准确性作法律背书。