能力标签
🛠
AI工具

开源推理引擎

基于 Rust · 开源免费,本地部署,数据完全自主可控
英文名:openinfer
⭐ 511 Stars 🍴 75 Forks 💻 Rust 📄 Apache-2.0 🏷 AI 8.0分
8.0AI 综合评分
cudagpuinferencerust
✦ AI Skill Hub 推荐

开源推理引擎 是 AI Skill Hub 本期精选AI工具之一。综合评分 8.0 分,整体质量较高。我们强烈推荐将其纳入你的 AI 工具库,帮助提升工作效率。

📚 深度解析

开源推理引擎 是一款基于 Rust 的开源工具,在 GitHub 上收获 1k+ Star,是cuda、gpu、inference、rust领域中的优质开源项目。开源工具的最大优势在于代码完全透明,你可以审计每一行代码的安全性,也可以根据自身需求进行二次开发和定制。

**为什么要使用开源工具而非商业 SaaS?**
对于个人开发者和有隐私需求的用户,本地部署的开源工具意味着数据不离本机,不受第三方服务商的数据政策约束。同时,开源工具通常没有使用次数限制和月度费用,一次安装即可长期使用,对于高频使用场景的总拥有成本(TCO)远低于订阅制商业工具。

**安装与环境准备**
开源推理引擎 依赖 Rust 运行环境。建议通过 pyenv(Python)或 nvm(Node.js)管理 Rust 版本,避免全局环境污染。对于新手用户,推荐先创建虚拟环境(python -m venv venv && source venv/bin/activate),再安装依赖,这样即使出现问题也可以随时删除虚拟环境重新开始,不影响系统稳定性。

**社区与维护**
GitHub Issue 和 Discussion 是获取帮助的最快渠道。在提问前建议先检查 Closed Issues(已关闭的问题),大多数常见问题都已有解答。遇到 Bug 时,提供 pip list 的输出、完整错误堆栈和最小可复现示例,能显著提高开发者响应速度。AI Skill Hub 将持续追踪 开源推理引擎 的版本更新,及时通知重要功能变化。

📋 工具概览

基于Rust和CUDA的LLM推理引擎,兼容OpenAI

开源推理引擎 是一款基于 Rust 开发的开源工具,专注于 cuda、gpu、inference 等核心功能。作为 GitHub 开源项目,它拥有活跃的社区支持和持续的版本迭代,代码完全透明可审计,支持本地部署以保护数据隐私。无论是个人使用还是集成到企业工作流,都能提供稳定可靠的解决方案。

GitHub Stars
⭐ 511
开发语言
Rust
支持平台
Windows / macOS / Linux
维护状态
正常维护,社区驱动
开源协议
Apache-2.0
AI 综合评分
8.0 分
工具类型
AI工具
Forks
75

📖 中文文档

以下内容由 AI Skill Hub 根据项目信息自动整理,如需查看完整原始文档请访问底部「原始来源」。

基于Rust和CUDA的LLM推理引擎,兼容OpenAI

开源推理引擎 是一款基于 Rust 开发的开源工具,专注于 cuda、gpu、inference 等核心功能。作为 GitHub 开源项目,它拥有活跃的社区支持和持续的版本迭代,代码完全透明可审计,支持本地部署以保护数据隐私。无论是个人使用还是集成到企业工作流,都能提供稳定可靠的解决方案。

📌 核心特色
  • 开源免费,支持本地部署,数据完全自主可控
  • 活跃的 GitHub 开源社区,持续迭代更新
  • 提供详细文档和使用示例,新手友好
  • 支持自定义配置,灵活适配不同使用环境
  • 可作为基础组件集成进现有技术栈或进行二次开发
🎯 主要使用场景
  • 本地部署运行,保护数据隐私,满足合规要求
  • 自定义集成到现有系统,扩展技术栈能力
  • 作为开源基础组件进行商业化二次开发
以下安装命令基于项目开发语言和类型自动生成,实际以官方 README 为准。
安装命令
# 方式一:cargo install(推荐)
cargo install openinfer

# 方式二:从源码编译
git clone https://github.com/openinfer-project/openinfer
cd openinfer
cargo build --release
# 二进制在 ./target/release/openinfer
📋 安装步骤说明
  1. 访问 GitHub 仓库页面
  2. 按照 README 文档完成依赖安装
  3. 根据系统环境完成初始化配置
  4. 参考官方示例或文档开始使用
  5. 遇到问题可在 GitHub Issues 中查找解答
以下用法示例由 AI Skill Hub 整理,涵盖最常见的使用场景。
常用命令 / 代码示例
# 查看帮助
openinfer --help

# 基本运行
openinfer [options] <input>

# 详细使用说明请查阅文档
# https://github.com/openinfer-project/openinfer
以下配置示例基于典型使用场景生成,具体参数请参照官方文档调整。
配置示例
# openinfer 配置说明
# 查看配置选项
openinfer --config-example > config.yml

# 常见配置项
# output_dir: ./output
# log_level: info
# workers: 4

# 环境变量(覆盖配置文件)
export OPENINFER_CONFIG="/path/to/config.yml"
📑 README 深度解析 真实文档 完整度 75/100 含工作流图 查看 GitHub 原文 →
以下内容由系统直接从 GitHub README 解析整理,保留代码块、表格与列表结构。

简介

<p align="center"> <img src="logo.png" width="200" alt="openinfer logo"> </p>

openinfer

<p align="center"> Pure Rust + CUDA LLM inference engine. No PyTorch. No model framework runtime. </p>

<p align="center"> <a href="https://open-infer.org/"> <img src="https://img.shields.io/badge/Docs%20%26%20Blog-open--infer.org-2ea44f" alt="Docs & Blog at open-infer.org"> </a> <a href="https://join.slack.com/t/openinferhq/shared_invite/zt-41scnc53a-d0McNJDjK2lVqFGoSLUgXA"> <img src="https://img.shields.io/badge/Slack-join%20the%20community-4A154B?logo=slack&logoColor=white" alt="Join the openinfer Slack"> </a> </p>

<p align="center"> <a href="#quickstart">Quickstart</a> &middot; <a href="#supported-models">Models</a> &middot; <a href="#api">API</a> &middot; <a href="#performance">Performance</a> &middot; <a href="#architecture">Architecture</a> &middot; <a href="https://open-infer.org/blog/">Blog</a> </p>

---

openinfer is an LLM inference engine built entirely in Rust and CUDA — no PyTorch, no ONNX, no framework runtime, every kernel and scheduler hand-written.

It serves frontier-scale models, from Qwen3 to the trillion-parameter Kimi-K2, and already holds its own against the best open-source inference frameworks.

Docs, guides, and engineering deep-dives live at open-infer.org — start with OpenInfer 0.1.0: Writing a Production-Grade Inference Engine in Rust and Co-locating Prefill and Decode on One GPU.

Qwen3.5 additionally needs Triton for the feature-gated AOT kernels

uv venv .venv --python 3.12 uv pip install "triton-windows<3.7" $env:OPENINFER_TRITON_PYTHON = ".venv\Scripts\python.exe" cargo run --release --features qwen35-4b -- --model-path models/Qwen3.5-4B ```

</details>

What's not (yet) implemented

  • General-purpose quantization for the Qwen lines — INT4 and FP8/FP4 today are model-specific (Kimi-K2 Marlin INT4, DeepSeek-V4 FP8/FP4), not yet available for the BF16 Qwen models

Prerequisites

  • Rust (2024 edition), CUDA Toolkit (nvcc, cuBLAS), CUDA-capable GPU
  • NVIDIA driver R535 (CUDA 12.2) or newer; driver symbols resolve lazily at call time, so the cuda-12090 cudarc feature does not raise the driver floor
  • The default build (Qwen3-4B / 8B) is pure Rust + CUDA — no Python at all
  • Python 3 + Triton for qwen35-4b feature builds (build-time only — no Python at runtime)
  • TileLang for deepseek-v4 feature builds (build-time only)
  • deepseek-v4 / kimi-k2 EP paths additionally need NCCL ≥ 2.27 at runtime (ncclAlltoAll)

Qwen3.5 requires the feature-gated Triton AOT kernels (Python + Triton at build time)

uv venv && uv pip install triton export OPENINFER_TRITON_PYTHON=.venv/bin/python cargo run --release --features qwen35-4b -- --model-path models/Qwen3.5-4B

DeepSeek V4 Flash requires the feature-gated MP8 path and TileLang at build time

uv pip install "tilelang==0.1.9" export OPENINFER_TILELANG_PYTHON=.venv/bin/python cargo run --release --features deepseek-v4 -- --model-path models/DeepSeek-V4-Flash

Build & Run

```bash

Build & start server on port 8000 — no Python needed for the default Qwen3 build

export CUDA_HOME=/usr/local/cuda cargo run --release


> **Note**: The server CLI is in `openinfer-server`. Model crates such as `openinfer-qwen3`, `openinfer-qwen35-4b`, and `openinfer-deepseek-v4` contain model logic and diagnostics but are not server entrypoints. Use `cargo run --release` from the workspace root, or `cargo run --release -p openinfer-server -- --model-path <path>`.
bash

Default Qwen3 build needs no Python

cargo build --release cargo run --release -p openinfer-server -- --model-path models/Qwen3-4B

Fresh-box dev setup

scripts/setup_dev.sh bootstraps a build environment on any fresh NVIDIA Ubuntu host: apt build deps + protobuf-compiler, uv, the rustup nightly pinned by rust-toolchain.toml, the vendored flashinfer/3rdparty/cccl submodule, then cargo build --release. CUDA is a prerequisite — it detects nvcc and fails loudly rather than installing a toolkit, so boot a CUDA image.

```bash bash scripts/setup_dev.sh

on a GPU whose arch the kernels don't target (e.g. V100 sm_70), compile for another:

OPENINFER_CUDA_SM=90 bash scripts/setup_dev.sh ```

To get the box itself, scripts/prime_devbox.sh provisions the cheapest match on Prime Intellect, has the box git-clone this repo over HTTPS, and runs setup_dev.sh — see the script header for one-time setup.

Quickstart

API

OpenAI-compatible /v1/completions endpoint.

FieldTypeDefaultDescription
promptstring(required)Input text
max_tokensint128Maximum tokens to generate
temperaturefloat0.0Sampling temperature (0 = greedy)
top_kint50Top-k sampling
top_pfloat1.0Nucleus sampling threshold
streamboolfalseEnable SSE streaming

Sampling and logprob support is model-dependent. Qwen models support the sampling controls above; the initial DeepSeek V4 path accepts greedy requests only and reports unsupported parameters through stop_reason.

Supported Models

ModelArchitectureParamsStatus
[Qwen3-4B](https://huggingface.co/Qwen/Qwen3-4B)Full attention (GQA)4BGreedy + sampling, default feature, pure Rust + CUDA build
[Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B)Full attention (GQA)8BGreedy + sampling, default feature, pure Rust + CUDA build
[Qwen3.5-4B](https://huggingface.co/Qwen/Qwen3.5-4B)Hybrid (24 linear + 8 full attention)4BGreedy + sampling, feature-gated, --features qwen35-4b (build-time Triton)
[DeepSeek-V2-Lite](https://huggingface.co/deepseek-ai/DeepSeek-V2-Lite)MoE + EP15.7B total / 2.4B activeFeature-gated, --features deepseek-v2-lite, 2-GPU path
[DeepSeek-V4-Flash](https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash)MoE + sparse attention (compressor + indexer), MP8 checkpoint671B total / 37B activeInitial greedy, feature-gated, 8-GPU MP8
[Kimi-K2-Instruct](https://huggingface.co/moonshotai/Kimi-K2-Instruct)MLA + MoE + Marlin INT41T total / 32B activeFeature-gated, --features kimi-k2, 8-GPU EP path

Model type is auto-detected from config.json — just point --model-path at any supported model directory. Every model line is controlled by a cargo feature; only qwen3 is on by default, so the stock build serves Qwen3 with zero Python. Other lines require rebuilding openinfer-server with the matching --features ... flag before launch.

DeepSeek V4 support is intentionally narrower than the Qwen paths in the initial PR: it requires --features deepseek-v4, uses CUDA devices 0..7, serves greedy requests only, terminates unsupported logprobs and non-greedy sampling requests with an explicit stop_reason, and does not use CUDA Graph yet.

Accuracy and integration tests (need GPU + model weights)

OPENINFER_TEST_MODEL_PATH=models/Qwen3-4B cargo test --release -p openinfer-qwen3 --test hf_golden_gate OPENINFER_TEST_MODEL_PATH=models/Qwen3.5-4B cargo test --release -p openinfer-qwen35-4b --features qwen35-4b --test hf_golden_gate OPENINFER_TEST_MODEL_PATH=models/Qwen3.5-4B cargo test --release -p openinfer-qwen35-4b --features qwen35-4b --test e2e_scheduler OPENINFER_TEST_MODEL_PATH=models/DeepSeek-V4-Flash cargo test --release -p openinfer-deepseek-v4 --features deepseek-v4 --test mp8_manifest ```

Qwen3.5-4B vs current vLLM

Single RTX 5090 (32 GB), Qwen3.5-4B, BF16, TP1 — openinfer with the Qwen3.5 decode-tuning change, vLLM 0.23.0, both driven by vllm bench serve 0.23.0. Fixed random prompts, 64 measured requests, 2 warmups, text-only serving with prefix cache off on both engines. Full flags and caveats are in the Qwen3.5 benchmark report.

WorkloadMetricopeninfervLLM 0.23.0
1 input / 256 outputTPOT mean6.282 ms**6.214 ms**
1 input / 512 outputTPOT mean6.381 ms**6.221 ms**
1024 input / 256 outputreported input tokens63,459 (992/request)65,536 (1,024/request)
1024 input / 256 outputTTFT mean (client-contract)55.3 ms66.3 ms
1024 input / 256 outputTPOT mean7.110 ms**6.346 ms**
1024 input / 256 outputoutput tok/s137.0**151.9**
2048 input / 1 outputreported input tokens126,957 (1,984/request)131,072 (2,048/request)
2048 input / 1 outputTTFT mean (client-contract)97.4 ms101.9 ms

The decode-tuning change improves openinfer's own direct Qwen3.5 decode TPOT by about 2-3%. Against vLLM, prompt-len-1 decode is close, but vLLM still leads the 1024/256 decode and high-concurrency HTTP rows. TTFT rows are fixed-client timings because reported prompt-token totals differ on the longer prompts.

🎯 aiskill88 AI 点评 A 级 2026-07-05

高性能LLM推理引擎,兼容OpenAI

⚡ 核心功能

👥 适合人群

AI 技术爱好者研究人员和学生开发者和工程师技术创业者

🎯 使用场景

  • 本地部署运行,保护数据隐私,满足合规要求
  • 自定义集成到现有系统,扩展技术栈能力
  • 作为开源基础组件进行商业化二次开发

⚖️ 优点与不足

✅ 优点
  • +Apache-2.0 协议,可免费商用
  • +完全开源免费,无授权费用
  • +本地部署,数据完全自主可控
  • +开发者社区支持,遇问题可查可问
⚠️ 不足
  • 安装和初始配置可能需要一定技术基础
  • 功能完整性通常不如成熟商业产品
  • 技术支持主要依赖开源社区,响应速度不稳定
⚠️ 使用须知

AI Skill Hub 为第三方内容聚合平台,本页面信息基于公开数据整理,不对工具功能和质量作任何法律背书。

建议在沙箱或测试环境中充分验证后,再部署至生产环境,并做好必要的安全评估。

📄 License 说明

✅ Apache 2.0 — 宽松开源协议,可商用,需保留版权声明和 NOTICE 文件,含专利授权条款。

🔗 相关工具推荐

🧩 你可能还需要
基于当前 Skill 的能力图谱,自动补全的工具组合

❓ 常见问题 FAQ

参考README.md文档
💡 AI Skill Hub 点评

经综合评估,开源推理引擎 在AI工具赛道中表现稳健,质量优秀。如果你已有明确的使用需求,可以直接上手体验;如果还在评估阶段,建议对比同类工具后再做决策。

📚 深入学习 开源推理引擎
查看分步骤安装教程和完整使用指南,快速上手这款工具
🌐 原始信息
原始名称 openinfer
Topics cudagpuinferencerust
GitHub https://github.com/openinfer-project/openinfer
License Apache-2.0
语言 Rust
🔗 原始来源
🐙 GitHub 仓库  https://github.com/openinfer-project/openinfer 🌐 官方网站  https://open-infer.org/

收录时间:2026-07-05 · 更新时间:2026-07-05 · License:Apache-2.0 · AI Skill Hub 不对第三方内容的准确性作法律背书。

📺 订阅 AI Skill Hub Daily Telegram 频道
每天 8 条精选 AI Skill、MCP、Agent 与自动化工具推送
加入频道 →