Xinfer 是 AI Skill Hub 本期精选Agent工作流之一。综合评分 8.0 分,整体质量较高。我们强烈推荐将其纳入你的 AI 工具库,帮助提升工作效率。
Xinfer 是一套完整的 AI Agent 自动化工作流方案。通过可视化的节点编排,将复杂的多步骤任务拆解为清晰的自动化流程,实现全程无人值守的智能处理。支持与数百种外部服务和 API 无缝集成,适合构建数据处理管线、业务自动化和 AI 辅助决策系统。
Xinfer 是一套完整的 AI Agent 自动化工作流方案。通过可视化的节点编排,将复杂的多步骤任务拆解为清晰的自动化流程,实现全程无人值守的智能处理。支持与数百种外部服务和 API 无缝集成,适合构建数据处理管线、业务自动化和 AI 辅助决策系统。
# 方式一:cargo install(推荐) cargo install xinfer # 方式二:从源码编译 git clone https://github.com/guoqingbao/xinfer cd xinfer cargo build --release # 二进制在 ./target/release/xinfer
# 查看帮助 xinfer --help # 基本运行 xinfer [options] <input> # 详细使用说明请查阅文档 # https://github.com/guoqingbao/xinfer
# xinfer 配置说明 # 查看配置选项 xinfer --config-example > config.yml # 常见配置项 # output_dir: ./output # log_level: info # workers: 4 # 环境变量(覆盖配置文件) export XINFER_CONFIG="/path/to/config.yml"
<p align="center"> <img src="logo.svg" alt="xInfer" width="400"><br> <b>Blazing-fast LLM inference in pure Rust.</b> No PyTorch. No Python runtime. Just fast, portable, production-ready inference.<br> <a href="./ReadMe.md">English</a> | <a href="./ReadMe-CN.md">简体中文</a> </p>
---
cargo install --git $XINFER_REPO xinfer --features cuda,nccl,flashinfer,cutlass
**Option 2 — Docker**bash
./build_docker.sh "cuda,nccl,flashinfer,cutlass"
See [Docker guide →](docs/docker.md)
<details>
<summary><b>Build Python wheel from source</b></summary>
bash pip install maturin maturin[patchelf]
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh sudo apt-get install -y git build-essential libssl-dev pkg-config
export XINFER_REPO="https://github.com/guoqingbao/xinfer"
Option 1 — Install DEB or Python package
curl -sSL https://guoqingbao.github.io/xinfer/install.sh | bash
Option 2 — npm
npm install -g xinfer-ai
---
Option 1 — Cargo ```bash
pip install target/wheels/xinfer*.whl --force-reinstall ```
</details>
---
For Python installaion, running model with python3 -m xinfer.server
For Docker builds, refer to Run xInfer in Docker →
<video src="https://github.com/user-attachments/assets/7fc6aa0b-78ac-4323-923f-d761dd12857f" width="1000px"></video>
---
xinfer --i --m unsloth/Qwen3.5-27B-GGUF --f Qwen3.5-27B-Q4_K_M.gguf
<details>
<summary><b>ISQ (on-the-fly quantization) + KV cache compression</b></summary>
bash
xinfer --d 2,3 --w /path/Qwen3-30B-A3B-Instruct-2507 --isq q4k --ui-server --port 8000 --pd-client
**Multinode** (tcp mode)bash
| Flag | Description |
|---|---|
--m | HuggingFace model ID (auto-download) |
--w | Local Safetensors model path |
--f | GGUF file path (or filename when --m is given) |
--d | Device IDs (e.g. --d 0,1) |
--ui-server | API server + built-in ChatGPT-style web UI |
--server | API server only (no web UI) |
--i | Interactive CLI chat |
--isq | On-the-fly quantization: q2k, q3k, q4k, q5k, q6k, q8_0 |
--kvcache-dtype | KV cache quantization: fp8, turbo8, turbo4, turbo3 |
--max-num-seqs | Max concurrent requests (default: 32, macOS: 8) |
--max-tokens | Max tokens per response (default: 16384) |
--kv-fraction | GPU memory fraction for KV cache |
--cpu-mem-fold | CPU swap memory ratio (default: 0.2) |
--pd-server | Run as PD prefill server |
--pd-client | Run as PD decode client |
--pd-url | PD connection URL (tcp://, http://, file://) |
--disable-prefix-cache | Disable prefix caching |
--prefix-cache-max-tokens | Cap prefix cache size |
--disable-cuda-graph | Disable CUDA graph capture |
--yarn-scaling-factor | YARN RoPE context extension factor |
--temperature | Sampling temperature (0–1) |
--top-k / --top-p | Top-k / nucleus sampling |
--presence-penalty | Penalize repeated tokens (−2 to 2) |
--frequency-penalty | Penalize frequent tokens (−2 to 2) |
--mcp-config | MCP servers JSON config |
--mcp-command / --mcp-args | Single MCP server command + args |
---
Formats: Safetensors (BF16, FP8-blockwise, GPTQ, AWQ, MXFP4, NVFP4) | GGUF (all quant types) | ISQ (on-the-fly quantization)
---
AI Skill Hub 为第三方内容聚合平台,本页面信息基于公开数据整理,不对工具功能和质量作任何法律背书。
建议在沙箱或测试环境中充分验证后,再部署至生产环境,并做好必要的安全评估。
✅ MIT 协议 — 最宽松的开源协议之一,可自由商用、修改、分发,仅需保留版权声明。
经综合评估,Xinfer 在Agent工作流赛道中表现稳健,质量优秀。如果你已有明确的使用需求,可以直接上手体验;如果还在评估阶段,建议对比同类工具后再做决策。
| 原始名称 | xinfer |
| 原始描述 | 开源AI工作流:Blazing-fast LLM inference in pure Rust. No PyTorch and Python runtime.。⭐221 · Rust |
| Topics | LLMRustAI |
| GitHub | https://github.com/guoqingbao/xinfer |
| License | MIT |
| 语言 | Rust |
收录时间:2026-05-25 · 更新时间:2026-05-25 · License:MIT · AI Skill Hub 不对第三方内容的准确性作法律背书。
选择 Agent 类型,复制安装指令后粘贴到对应客户端