📄 工具详情 ⚙️ 安装教程 📚 使用教程

能力标签

🔌 MCP 🤖 Agent 🐳 Docker 💻 CLI 🔗 REST API 🧬 Embedding 🖼 视觉 🧠 Claude ✨ GPT

⚙️

Agent工作流

Xinfer

Q: xinfer 如何安装和开始使用？

访问 xinfer 的 GitHub 仓库或官方网站，按照 README 文档中的步骤安装依赖并运行。通常需要 Python 3.8+ 或 Node.js 16+ 基础环境。

Q: xinfer 是否免费？许可证是什么？

xinfer 完全免费，采用 MIT 许可证开源发布，任何人都可以免费使用、修改和分发。

Q: xinfer 适合哪些用户使用？

xinfer 主要面向有一定技术基础的用户，包括开发者、数据分析师、AI 工程师等专业人士。

Q: xinfer 的社区活跃度和项目维护状况如何？

xinfer 在 GitHub 上已获得 221 个 Star，处于积极发展阶段，社区在持续扩大。

基于 Rust · 无代码搭建完整 AI 自动化流程

英文名：xinfer

⭐ 221 Stars 🍴 31 Forks 💻 Rust 📄 MIT 🏷 AI 8.0分

8.0AI 综合评分

LLMRustAI

⬇ 下载源码 ZIP ⚙️ 配置说明 📺 TG 频道

✦ AI Skill Hub 推荐

Xinfer 是 AI Skill Hub 本期精选Agent工作流之一。综合评分 8.0 分，整体质量较高。我们强烈推荐将其纳入你的 AI 工具库，帮助提升工作效率。

📚 深度解析

Xinfer 是一套完整的 AI Agent 自动化工作流方案。随着 AI 能力的不断提升，基于 Agent 的自动化工作流正在成为提升个人和团队效率的核心方式。区别于传统的 RPA 自动化（模拟鼠标键盘操作），AI Agent 工作流通过理解任务意图、动态规划执行路径，能够处理更复杂的非结构化任务。

Xinfer 工作流的设计遵循"最小配置，最大复用"原则：核心逻辑已经封装好，用户只需配置自己的 API Key 和业务参数即可快速上手。工作流内置错误处理和重试机制，在网络波动或 API 限速等情况下仍能稳定运行，适合作为生产环境的自动化基础设施。

在实际部署时，建议先在测试环境中运行 3-5 次，验证各个环节的输出结果符合预期，再部署到生产环境。AI Skill Hub 评分 8.0 分，是同类 Agent 工作流中的精选推荐。

📋 工具概览

Xinfer 是一套完整的 AI Agent 自动化工作流方案。通过可视化的节点编排，将复杂的多步骤任务拆解为清晰的自动化流程，实现全程无人值守的智能处理。支持与数百种外部服务和 API 无缝集成，适合构建数据处理管线、业务自动化和 AI 辅助决策系统。

GitHub Stars

⭐ 221

开发语言

Rust

支持平台

Windows / macOS / Linux

维护状态

轻量级项目，按需更新

开源协议

MIT

AI 综合评分

8.0 分

工具类型

Agent工作流

Forks

📖 中文文档

以下内容由 AI Skill Hub 根据项目信息自动整理，如需查看完整原始文档请访问底部「原始来源」。

📌 核心特色

可视化 Agent 工作流编排，无需编写复杂代码
支持多步骤自动化任务链，实现全流程无人值守
与外部 API、数据库和第三方服务无缝集成
内置错误处理与自动重试机制，保障稳定运行
提供可复用的自动化模板，快速在同类场景部署

🎯 主要使用场景

自动化日常重复性工作，将精力集中于创造性任务
构建数据采集 → 处理 → 输出的完整自动化管线
实现跨平台、跨系统的数据流转和业务协同

以下安装命令基于项目开发语言和类型自动生成，实际以官方 README 为准。

安装命令

# 方式一：cargo install（推荐）
cargo install xinfer

# 方式二：从源码编译
git clone https://github.com/guoqingbao/xinfer
cd xinfer
cargo build --release
# 二进制在 ./target/release/xinfer

📋 安装步骤说明

访问 GitHub 仓库获取工作流文件
在对应平台（Dify / Flowise / Make 等）中找到「导入工作流」功能
上传工作流文件
按照提示配置必要的环境变量和 API Key
运行测试确认流程正常后投入使用

以下用法示例由 AI Skill Hub 整理，涵盖最常见的使用场景。

常用命令 / 代码示例

# 查看帮助
xinfer --help

# 基本运行
xinfer [options] <input>

# 详细使用说明请查阅文档
# https://github.com/guoqingbao/xinfer

以下配置示例基于典型使用场景生成，具体参数请参照官方文档调整。

配置示例

# xinfer 配置说明
# 查看配置选项
xinfer --config-example > config.yml

# 常见配置项
# output_dir: ./output
# log_level: info
# workers: 4

# 环境变量（覆盖配置文件）
export XINFER_CONFIG="/path/to/config.yml"

📑 README 深度解析真实文档完整度 87/100 查看 GitHub 原文 →

以下内容由系统直接从 GitHub README 解析整理，保留代码块、表格与列表结构。

简介

<img src="logo.svg" alt="xInfer" width="400"> Blazing-fast LLM inference in pure Rust. No PyTorch. No Python runtime. Just fast, portable, production-ready inference. <a href="./ReadMe.md">English</a> | <a href="./ReadMe-CN.md">简体中文</a>

---

MacOS/Metal: replace features to `metal`

SM_70/SM_75 (e.g., V100): remove `flashinfer` and `cutlass` features

cargo install --git $XINFER_REPO xinfer --features cuda,nccl,flashinfer,cutlass


**Option 2 — Docker**

bash

Turing/V100 (sm_70/sm_75): remove `flashinfer` and `cutlass` features

./build_docker.sh "cuda,nccl,flashinfer,cutlass"


See [Docker guide →](docs/docker.md)


<details>
<summary><b>Build Python wheel from source</b></summary>

bash pip install maturin maturin[patchelf]

Prerequisites: Rust compiler, CUDA Toolkit (optional) or Metal Xcode command line tool

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh sudo apt-get install -y git build-essential libssl-dev pkg-config

export XINFER_REPO="https://github.com/guoqingbao/xinfer"

📦 Install

Option 1 — Install DEB or Python package

curl -sSL https://guoqingbao.github.io/xinfer/install.sh | bash

Option 2 — npm

npm install -g xinfer-ai

---

📘 Build from source code

Option 1 — Cargo ```bash

Install

pip install target/wheels/xinfer*.whl --force-reinstall ```

</details>

See more Python examples →

---

🚀 Quick Start

📘 Usage

For Python installaion, running model with python3 -m xinfer.server

For Docker builds, refer to Run xInfer in Docker →

📽️ Demo

---

Environment Variables

Variable	Description
`XINFER_NVFP4_FORCE_LUT=1`	Force software NVFP4 decode to use the LUT-based dequantization path (higher precision) instead of hardware FP4 intrinsics on Blackwell (SM100+). Useful when decode precision matters more than peak throughput.

Example (Blackwell with high-precision NVFP4 decode):

XINFER_NVFP4_FORCE_LUT=1 xinfer --m nvidia/Qwen3-30B-A3B-FP4 --ui-server

---

Interactive CLI chat

xinfer --i --m unsloth/Qwen3.5-27B-GGUF --f Qwen3.5-27B-Q4_K_M.gguf


<details>
<summary><b>ISQ (on-the-fly quantization) + KV cache compression</b></summary>

bash

Upload images via built-in Chat UI or send image_url in API requests

Node 0 (master, 192.168.1.100): scheduler + API

xinfer --d 0,1,2,3 --m /data/DeepSeek-R1/ \ --num-nodes 2 --node-rank 0 --master-addr 192.168.1.100 --ui-server

PD Client (decode GPU + API)

xinfer --d 2,3 --m /path/Qwen3-30B-A3B-Instruct-2507 --isq q4k --ui-server --port 8000 --pd-client


**Multinode** (tcp mode)

bash

⚙️ CLI Reference

Flag	Description
`--m`	Model source: HuggingFace model ID, local Safetensors directory, local GGUF file, or local folder containing GGUF files
`--w`	Legacy alias for local Safetensors directory; prefer `--m <local_dir>`
`--f`	Local GGUF file when used alone; remote GGUF filename when paired with `--m <model_id>`
`--d`	Device IDs (e.g. `--d 0,1`)
`--ui-server`	API server + built-in ChatGPT-style web UI
`--server`	API server. Bare: `0.0.0.0:8000`; or `host[:port]`, `file:///path`, `socket:///path`, `unix:///path`
`--i`	Interactive CLI chat
`--isq`	On-the-fly quantization: `q2k`, `q3k`, `q4k`, `q5k`, `q6k`, `q8_0`
`--kvcache-dtype`	KV cache quantization: `fp8`, `turbo8`, `turbo4`, `turbo3`
`--max-num-seqs`	Max concurrent requests (default: 32, macOS: 8)
`--max-tokens`	Max tokens per response (default: 16384)
`--kv-fraction`	GPU memory fraction for KV cache
`--cpu-mem-fold`	CPU swap memory ratio (default: 0.2)
`--pd-server`	Run as PD prefill server
`--pd-client`	Run as PD decode client
`--pd-url`	PD connection URL (`tcp://`, `http://`, `file://`)
`--disable-prefix-cache`	Disable prefix caching
`--prefix-cache-max-tokens`	Cap prefix cache size
`--prefill-chunk-size`	Cap prefill chunk size (default: CUDA 8K, Metal: 4k)
`--disable-cuda-graph`	Disable CUDA graph capture
`--yarn-scaling-factor`	YARN RoPE context extension factor
`--temperature`	Sampling temperature (0–1)
`--top-k` / `--top-p`	Top-k / nucleus sampling
`--presence-penalty`	Penalize repeated tokens (−2 to 2)
`--frequency-penalty`	Penalize frequent tokens (−2 to 2)
`--mcp-config`	MCP servers JSON config
`--mcp-command` / `--mcp-args`	Single MCP server command + args
`--mtp`	Multi-token prediction, usage `--mtp 2` for two-token prediction per forward pass

📚 References

Candle-vLLM
Python nano-vllm

🧠 Supported Models

✅ LLaMa (LLaMa2, LLaMa3, LLaMa4, IQuest-Coder)
✅ Qwen (Qwen2, Qwen3)
✅ Qwen2/Qwen3 MoE
✅ Qwen3 Next
✅ Qwen3.5/3.6 Dense/MoE (27B, 35B, 122B, 397B, Multimodal model)
✅ Mistral v1, v2
✅ Mistral-3-VL Reasoning (3B, 8B, 14B, Multimodal model)
✅ GLM4 (0414, Not ChatGLM)
✅ GLM4 MoE (4.6/4.7)
✅ GLM4.7 Flash
✅ DeepSeek V3/R1/V3.2
✅ Phi3 / Phi4 (Phi-3, Phi-4, Phi-4-mini, etc.)
✅ Gemma3/Gemma4 (Multimodal model)
✅ Qwen3-VL (Dense, Multimodal model)
✅ MiroThinker-v1.5 (30B, 235B)

Formats: Safetensors (BF16, FP8-blockwise, GPTQ, AWQ, MXFP4, NVFP4) | GGUF (all quant types) | ISQ (on-the-fly quantization)

---

🇨🇳 中文文档镜像 AI 翻译 2026-06-07

英文原文章节由系统翻译为中文摘要，便于快速理解。完整原文见上方 "📑 README 深度解析"。

📌 简介

xInfer 是一个纯 Rust 实现的快速 LLM 推理引擎，支持 MacOS/Metal、CUDA 和 Docker 等环境。它不需要 PyTorch 或 Python 运行环境，只需要一个快速、可移植、生产就绪的推理引擎。

⚡ 功能介绍

xInfer 支持多种功能，包括 MacOS/Metal、CUDA 和 Docker 等环境。具体功能包括：

📋 环境依赖

xInfer 的环境依赖与系统要求包括：Rust 编译器、CUDA 工具包（可选）或 Metal 等。

🛠 安装步骤（Docker/pip/源码）

xInfer 的安装步骤包括：

🚀 使用教程

xInfer 的使用教程包括：

🔌 API 说明

xInfer 的 API/接口说明包括：

🔄 工作流/模块

xInfer 支持的工作流 / 模块包括：

📚 实用指南（长尾问题）

适合谁

需要让 Claude / Cursor 操作本地工具的 AI 工程师
构建多智能体协作系统的 Agent 开发者
构建企业知识库 / RAG 检索应用的团队

最佳实践

配置 MCP 服务器时建议使用 stdio 传输 + JSON-RPC，避免暴露公网
生产部署优先使用 Docker Compose 隔离依赖，并挂载 volume 持久化数据
Agent 任务先做 dry-run 验证工具调用链，再开启自主执行

常见错误

API key 直接提交到 git 仓库（请用 .env 并加入 .gitignore）
MCP 配置路径拼错或权限不足，重启 Claude Desktop 才生效
容器内无法访问宿主机 localhost — 使用 host.docker.internal

部署方案

Docker：xinfer 提供官方镜像，docker compose up 一键启动
CLI：直接 npm install -g / pip install，命令行调用
云端托管：可放在 Vercel / Railway / Fly.io 等 PaaS 平台

⚡ 核心功能

可视化 Agent 工作流编排，无需编写复杂代码
支持多步骤自动化任务链，实现全流程无人值守
与外部 API、数据库和第三方服务无缝集成
内置错误处理与自动重试机制，保障稳定运行
提供可复用的自动化模板，快速在同类场景部署

👥 适合谁

需要让 Claude / Cursor 操作本地工具的 AI 工程师
构建多智能体协作系统的 Agent 开发者
构建企业知识库 / RAG 检索应用的团队

⭐ 最佳实践

配置 MCP 服务器时建议使用 stdio 传输 + JSON-RPC，避免暴露公网
生产部署优先使用 Docker Compose 隔离依赖，并挂载 volume 持久化数据
Agent 任务先做 dry-run 验证工具调用链，再开启自主执行

⚠️ 常见错误

API key 直接提交到 git 仓库（请用 .env 并加入 .gitignore）
MCP 配置路径拼错或权限不足，重启 Claude Desktop 才生效
容器内无法访问宿主机 localhost — 使用 host.docker.internal

👥 适合人群

自动化工程师和运维人员项目经理和业务分析师希望减少重复性工作的专业人士数字化转型团队

🎯 使用场景

自动化日常重复性工作，将精力集中于创造性任务
构建数据采集 → 处理 → 输出的完整自动化管线
实现跨平台、跨系统的数据流转和业务协同

⚖️ 优点与不足

✅ 优点

+MIT 协议，可免费商用
+大幅减少重复性人工操作
+可视化流程，清晰直观
+可扩展性强，支持复杂场景

⚠️ 不足

−初始配置和调试需投入一定时间
−强依赖外部服务的稳定性
−复杂场景需具备一定技术基础

⚠️ 使用须知

AI Skill Hub 为第三方内容聚合平台，本页面信息基于公开数据整理，不对工具功能和质量作任何法律背书。

建议在沙箱或测试环境中充分验证后，再部署至生产环境，并做好必要的安全评估。

📄 License 说明

🔗 相关工具推荐

ai-agents-for-beginners Agent工作流

微软官方开源项目，提供12堂系统课程学习AI智能体框架。涵盖工作流设计、RAG检索增强、多智能体协作等核心技能。适合AI

n8n AI工作流自动化

Agent工作流

帮助中心 · AI Skill Hub

AI Agent 工作流设计模式：从单 Agent 到多 Agent 协作的实践指南

帮助中心 · AI Skill Hub

AI Agent 工作流设计模式：从单 Agent 到多 Agent 协作的实践指南

帮助中心 · AI Skill Hub

n8n 搭建 AI Agent 工作流：从安装到实战案例

帮助中心 · AI Skill Hub

📰 相关 AI 新闻

AI 模型性能评测与横向对比

AI 资讯 · 知识关联

AI 前沿资讯：What ClickUps mass layoff tell…

🍿 AI 圈相关吃瓜

AutoGPT 自主完成了任务：把我的文件夹全部重命名了

AI 圈观察

配了5个 MCP 工具，Claude 一个都没用

AI 圈观察

Filesystem MCP 帮 Claude 找文件，找了整个 node_modules

🗺️ 相关解决方案

🧩 你可能还需要

基于当前 Skill 的能力图谱，自动补全的工具组合

技能寻求者

MCP · Agent · 工作流

natively-cluely-ai-assistant — Claude Skill 中文使用文档

免费开源的AI面试助手，实时转录，隐蔽模式，局部RAG，BYOK。无订阅，防止数据泄露。

❓ 常见问题 FAQ

xinfer 是什么工具？−

xinfer 是一款Rust开发的AI辅助工具。开源AI工作流：Blazing-fast LLM inference in pure Rust. No PyTorch and Python runtime.。⭐221 · Rust 主要应用场景包括：高性能AI推理。

xinfer 如何安装和开始使用？+

xinfer 是否免费？许可证是什么？+

xinfer 适合哪些用户使用？+

xinfer 的社区活跃度和项目维护状况如何？+

什么是 Agent 工作流？和普通自动化有什么区别？+

导入工作流后，我需要修改哪些配置？+

工作流运行失败了，如何排查问题？+

💡 AI Skill Hub 点评

经综合评估，Xinfer 在Agent工作流赛道中表现稳健，质量优秀。如果你已有明确的使用需求，可以直接上手体验；如果还在评估阶段，建议对比同类工具后再做决策。

⬇️ 获取与下载

⬇ 下载源码 ZIP

✅ MIT 协议 · 可免费商用 · 直接从 aiskill88 服务器下载，无需跳转 GitHub

📚 深入学习 Xinfer

查看分步骤安装教程和完整使用指南，快速上手这款工具

⚙️ 安装教程 📚 使用教程

🌐 原始信息

原始名称	`xinfer`
原始描述	开源AI工作流：Blazing-fast LLM inference in pure Rust. No PyTorch and Python runtime.。⭐221 · Rust
Topics	`LLMRustAI`
GitHub	https://github.com/guoqingbao/xinfer
License	MIT
语言	Rust

🔗 原始来源

🐙 GitHub 仓库 https://github.com/guoqingbao/xinfer 🌐 官方网站 http://guoqingbao.github.io/xinfer/

收录时间：2026-05-25 · 更新时间：2026-05-30 · License：MIT · AI Skill Hub 不对第三方内容的准确性作法律背书。

📺 订阅 AI Skill Hub Daily Telegram 频道

每天 8 条精选 AI Skill、MCP、Agent 与自动化工具推送

加入频道 →

Xinfer

📚 深度解析

📋 工具概览

📖 中文文档

简介

MacOS/Metal: replace features to `metal`

SM_70/SM_75 (e.g., V100): remove `flashinfer` and `cutlass` features

Turing/V100 (sm_70/sm_75): remove `flashinfer` and `cutlass` features

Prerequisites: Rust compiler, CUDA Toolkit (optional) or Metal Xcode command line tool

📦 Install

📘 Build from source code

Install

🚀 Quick Start

📘 Usage

📽️ Demo

Environment Variables

Interactive CLI chat

Upload images via built-in Chat UI or send image_url in API requests

Node 0 (master, 192.168.1.100): scheduler + API

PD Client (decode GPU + API)

⚙️ CLI Reference

📚 References

🧠 Supported Models

⚡ 核心功能

👥 适合人群

🎯 使用场景

⚖️ 优点与不足

🔗 相关工具推荐

❓ 常见问题 FAQ

🤖 交给 Agent 安装 · Xinfer