能力标签

🔌 MCP 🤖 Agent 🔄 工作流 💻 CLI 🖼 视觉 ✨ GPT 🖥 本地 LLM

🛠

AI工具

Lynn AI推理引擎

基于 Python · 开源免费，本地部署，数据完全自主可控

英文名：lynn-engine

⭐ 17 Stars 💻 Python 📄 未公布协议 🏷 AI 8.0分

8.0AI 综合评分

AI推理深度学习CUDAPython

🔍 查看原项目

✦ AI Skill Hub 推荐

AI Skill Hub 强烈推荐：Lynn AI推理引擎是一款优质的AI工具。AI 综合评分 8.0 分，在同类工具中表现稳健。如果你正在寻找可靠的AI工具解决方案，这是一个值得深入了解的选择。

📚 深度解析

Lynn AI推理引擎是一款基于 Python 的开源工具，在 GitHub 上收获 0k+ Star，是AI推理、深度学习、CUDA、Python领域中的优质开源项目。开源工具的最大优势在于代码完全透明，你可以审计每一行代码的安全性，也可以根据自身需求进行二次开发和定制。

**为什么要使用开源工具而非商业 SaaS？**
对于个人开发者和有隐私需求的用户，本地部署的开源工具意味着数据不离本机，不受第三方服务商的数据政策约束。同时，开源工具通常没有使用次数限制和月度费用，一次安装即可长期使用，对于高频使用场景的总拥有成本（TCO）远低于订阅制商业工具。

**安装与环境准备**
Lynn AI推理引擎依赖 Python 运行环境。建议通过 pyenv（Python）或 nvm（Node.js）管理 Python 版本，避免全局环境污染。对于新手用户，推荐先创建虚拟环境（python -m venv venv && source venv/bin/activate），再安装依赖，这样即使出现问题也可以随时删除虚拟环境重新开始，不影响系统稳定性。

**社区与维护**
GitHub Issue 和 Discussion 是获取帮助的最快渠道。在提问前建议先检查 Closed Issues（已关闭的问题），大多数常见问题都已有解答。遇到 Bug 时，提供 pip list 的输出、完整错误堆栈和最小可复现示例，能显著提高开发者响应速度。AI Skill Hub 将持续追踪 Lynn AI推理引擎的版本更新，及时通知重要功能变化。

📋 工具概览

Lynn AI推理引擎是一个开源的AI工具，支持W4A8/NVFP4量化、自写CUDA/Triton kernel、MoE和投机解码，适合深度学习和AI推理应用

Lynn AI推理引擎是一款基于 Python 开发的开源工具，专注于 AI推理、深度学习、CUDA 等核心功能。作为 GitHub 开源项目，它拥有活跃的社区支持和持续的版本迭代，代码完全透明可审计，支持本地部署以保护数据隐私。无论是个人使用还是集成到企业工作流，都能提供稳定可靠的解决方案。

GitHub Stars

⭐ 17

开发语言

Python

支持平台

Windows / macOS / Linux

维护状态

轻量级项目，按需更新

开源协议

未公布

AI 综合评分

8.0 分

工具类型

AI工具

Forks

—

📖 中文文档

以下内容由 AI Skill Hub 根据项目信息自动整理，如需查看完整原始文档请访问底部「原始来源」。

Lynn AI推理引擎是一个开源的AI工具，支持W4A8/NVFP4量化、自写CUDA/Triton kernel、MoE和投机解码，适合深度学习和AI推理应用

📌 核心特色

开源免费，支持本地部署，数据完全自主可控
活跃的 GitHub 开源社区，持续迭代更新
提供详细文档和使用示例，新手友好
支持自定义配置，灵活适配不同使用环境
可作为基础组件集成进现有技术栈或进行二次开发

🎯 主要使用场景

本地部署运行，保护数据隐私，满足合规要求
自定义集成到现有系统，扩展技术栈能力
作为开源基础组件进行商业化二次开发

以下安装命令基于项目开发语言和类型自动生成，实际以官方 README 为准。

安装命令

# 方式一：pip 安装（推荐）
pip install lynn-engine

# 方式二：虚拟环境安装（推荐生产环境）
python -m venv .venv
source .venv/bin/activate  # Windows: .venv\Scripts\activate
pip install lynn-engine

# 方式三：从源码安装（获取最新功能）
git clone https://github.com/MerkyorLynn/lynn-engine
cd lynn-engine
pip install -e .

# 验证安装
python -c "import lynn_engine; print('安装成功')"

📋 安装步骤说明

访问 GitHub 仓库页面
按照 README 文档完成依赖安装
根据系统环境完成初始化配置
参考官方示例或文档开始使用
遇到问题可在 GitHub Issues 中查找解答

以下用法示例由 AI Skill Hub 整理，涵盖最常见的使用场景。

常用命令 / 代码示例

# 命令行使用
lynn-engine --help

# 基本用法
lynn-engine input_file -o output_file

# Python 代码中调用
import lynn_engine

# 示例
result = lynn_engine.process("input")
print(result)

以下配置示例基于典型使用场景生成，具体参数请参照官方文档调整。

配置示例

# lynn-engine 配置文件示例（config.yml）
app:
  name: "lynn-engine"
  debug: false
  log_level: "INFO"

# 运行时指定配置文件
lynn-engine --config config.yml

# 或通过环境变量配置
export LYNN_ENGINE_API_KEY="your-key"
export LYNN_ENGINE_OUTPUT_DIR="./output"

📑 README 深度解析真实文档完整度 65/100 查看 GitHub 原文 →

以下内容由系统直接从 GitHub README 解析整理，保留代码块、表格与列表结构。

Lynn Engine

🚀 战略校正(2026-06-03):Lynn engine 重启为并行主线,目标「对标 llama.cpp」,不再是"降级为 R&D / 只用 llama.cpp"。 客户端短期仍以 llama.cpp/GGUF 为务实默认后端;引擎并行推进——同模型同硬件对标 llama.cpp,终局 = 自己啃下融合 4-bit / 零-shadow 内核(单投影 PoC → 全 dense + 删 shadow → MoE grouped 专家 → 融合减 launch,每阶段 gate + RC),在 FP4-MMA 卡(R6000 一代)上逼近乃至超过。做引擎,要做就自己把内核啃下来。 ✅ 自有核心已 bank 的最新突破: 35B NVFP4 服务已把 decode 阶段 BF16 dequant-shadow 从常驻内存中释放,resident 88→28 GiB(省 ~60 GiB),token-exact,TPS 0.998× 无回归;server/openai_http.py 已接入 reload→prefill→release→decode 服务循环。P0.1/P0.2 packed-prefill gates 已过:释放 60GiB shadow 后不调用 reload,stream_bf16 证明 token-exact no-reload prefill(peak 40.28 GiB,proof prefill 20.75s);P0.2 resident inventory 显示 after-release BF16 只剩 4.72 GiB。2026-06-04 P1 单 dense projection PoC 已过:真实 linear_attn.in_proj_qkv 从 packed E2M1 + FP16 scale 直接跑 Triton matvec,不读 BF16 shadow,numeric PASS,32.00→10.00 MiB(3.20×),160.29us vs BF16 190.03us = 1.186×。P1-A naive + tiled scalar batched bridges 均已反证:数值/no-shadow 过,但 M>1 仍输 BF16 tensor-core GEMM。P2 grouped MoE 已推进到 P2-I:P2-F 已接入 engine opt-in mode LYNN_PACKED_PREFILL_SLOW_MODE=p2e_hybrid;P2-H 进入完整 _prefill_layer 链路(RMSNorm + linear/full attention cache + MoE),mixed L0-3 T16 45.97ms vs BF16 58.57ms = 1.274x,比 stream_bf16 快 52.09x;P2-I 扩到 mixed L0-7 T16 88.96ms vs BF16 113.82ms = 1.279x,比 stream_bf16 快 46.70x,numeric pass,peak 5.123GiB vs stream 17.102GiB。下一关是 P2-J linear-attn prefill trace。Python 只做控制面和验证,追赶 llama.cpp 靠 CUDA C++/CUTLASS/native kernel。

🆕 2026-06-03 Decode 内核启动开销战役 — Spark NVFP4 35B-A3B 单流 38.96 → ~45 TPS,质量 RC 等价。 实测 decode 是 launch-bound(census:~1527 CUDA launch/token,~40% 时间耗在 CPU 端 dispatch)。逐簇融合 launch + 消拷贝:fused RMSNorm(最大头)/ shared-expert / linear-attn g/beta-fold / full-attn(token-exact)/ NVFP4 _scaled_mm bf16-out copy-elision,5 个 RC-validated launch-cut——在 structured/V9/GPQA/tool-call/long-form 上 40/40 greedy 输出与 baseline 逐字一致,继承 MMLU 84.40 / GPQA-Diamond 49.49。全部 gated、默认安全、可回滚。 🎯 关于对标 llama.cpp(口径已据 6/3 evidence-lock 校正)。 同硬件 Q4_K_M 69.77 领先 ~1.5×。起初以为根因是 BF16 dequant-shadow 的 ~2× 带宽墙、写个零-shadow 内核就能把墙从 ~40 推到 ~140;6/3 实测(2 个无头 CLI 代码 trace + 4 个 Spark 探针)把这个前提证伪了:read-4bit 其实已做(MoE 专家走「packed-4bit→寄存器反量化→bf16 GEMV」Triton 核)、那 60 GiB BF16 是 prefill 专用(decode 整块删掉照跑、TPS 不降 42.4→43.7)、把 attn 改读 FP4 无收益甚至更慢(full-attn 0.999× / linear out_proj 0.775×)、reusable decode CUDA graph 净负 0.75×。→ decode 是 launch-bound,且 Spark sm_121(无 FP4 MMA)结构性卡 ~45。 与 69.77 的差距是 llama.cpp 手写、低-dispatch、成熟度极高的 ggml CUDA —— 需 ground-up 内核重写 + 最终 FP4-MMA 硅(R6000 已退租),不是 Spark 的交付目标。本轮 bankable 红利:decode-only 删 shadow → 常驻 87→27 GiB(腾 60 GiB 给 KV/长上下文/batch)。跨设备内核 moat(同套 NVFP4 权重挪 FP4-MMA 卡变 native)逻辑仍在,有那张卡时才兑现。详见 decode launch-overhead campaign。

🆕 2026-05-28 Qwen3.6-35B-A3B update — Spark 已切到最快 APEX-MTP I-Balanced 单流路线。 当前 lynn-apex-mtp-llamacpp.service 使用 Qwen3.6-35B-A3B-APEX-MTP-I-Balanced.gguf + --spec-type draft-mtp --spec-draft-n-max 4。短 A/B:单流 77.01 tok/s vs AR 60.65 tok/s(+27%);生产 sanity 中位 76.19 tok/s。既有 32K thinking-on 质量锚点:MMLU500 90.00% / GPQA198 78.79% naive,83.87% excl parse fail / tool-call 12/15。详见 APEX-MTP service A/B, 32K quality refresh status,以及知乎/公众号草稿。

🆕 2026-05-27 Active R&D update — Lynn engine 没有放弃,正在把 Nemotron-style self-spec 的可移植部分落到 Qwen35 APEX-MTP。 (历史记录;最新口径以顶部 6/3 重启校正为准)当时客户端默认走 llama.cpp/GGUF,engine 研发线持续推进: Qwen3.6-35B-A3B W4A16 + official APEX/MTP sidecar 已跑通 K=2 verify/accept/crop/full-accept/prefix-repair token-exact smoke。当前 blocker 不是算法控制流,而是 K2 verifier 的 T=1-equivalent attention / o_proj kernel 成本。详见 5/27 active status 和 Qwen35 MTP block verifier log。简单说:产品 fallback 先用 llama.cpp,但 Lynn engine 主线正在继续吃 APEX-MTP / K=N / self-spec 这条硬路线。

🆕 2026-05-20 状态变更(⚠️ 已被顶部 6/3 重启校正取代)— 当时把 Lynn engine 降级为 R&D 持续探索路径;现引擎已重启为对标 llama.cpp 的并行主线。 Lynn 客户端短期投奔 llama.cpp 生态作为默认本地推理底层(Mac Metal / Win MSVC / Linux CUDA 全平台 + Q4_K_M GGUF)。默认 ship 模型 = Qwen3.5-9B Q4_K_M-imatrix(5.3GB) thinking-on excl_pf MMLU 90+ / GPQA 80+。历史决策见 5/20 Release Notes;当前权威状态见 6/3 Restart Notes。 Lynn engine 工程财产全留(5 CLI 并行 + 7 bug fix trail + 178s repack + autotune sweep 2160 config 都是真东西)。回主线门槛:同硬件同模型速度接近或超过 llama.cpp,且质量有不可替代优势。 ⚠️ 以下 5/16 状态文档保留作历史进度记录,最新状态以 RELEASE_NOTES_20260603 为准。

---

为 NVIDIA Blackwell 写的 Lynn 27B-A3B NVFP4 单模型推理引擎。 从零写,锁定 Lynn 自家的 variable-pruned MoE + NVFP4 格式,目标很窄也很硬:在 R6000 / Spark 这类 Blackwell 机器上,把 Lynn 27B A3B MoE 基座跑成可生产、可优化、可长期接管的推理内核。

Read in English · 📝 6月知乎连载:从零开始 Qwen 3.6 35B-A3B 写专用推理引擎踩坑心得分享 · 战略文档 · 架构设计 · 🆕 6/3 Restart Notes · P1 dense projection PoC · P1-A tiled sweep · P2 grouped MoE census · P2-G multi-layer MoE smoke · P2-H selected-layer prefill smoke · P2-I selected-MoE expansion · 5/20 历史 Release Notes

部署目标硬件

硬件	VRAM	状态
DGX Spark(GB10 sm_121,unified 119GB)	119 GB	C 阶段开发主力
RTX 5090 笔记本(sm_120,24GB)	24 GB	Lynn-27B-A3B-NVFP4 占 ~20 GB,4 GB 余量给 16K context ✅
RTX 5090 台式机(sm_120,32GB)	32 GB	预期 180-250 t/s,32K context 宽裕
RTX PRO 6000 Blackwell(sm_120,96GB)	96 GB	多 LoRA 切换 + 长 context 扩展
~~4090 / Ada~~	—	不支持(没 FP4 tensor cores)
~~A100 / H100 / Hopper~~	—	不支持(同上,FP4 emulation 不值)
~~Ampere / Volta~~	—	不支持(老)

教程 — 即使你不写自己的引擎也值得读

写 Lynn engine 时,我们挖出了 Qwen 3.6 35B-A3B 跟 Llama / Qwen 2 不一样、文档没写明的怪癖。共 7 篇深度文章在 tutorials/:

#	主题	一句话
[01](tutorials/01_rmsnorm_one_plus_weight.md)	RMSNorm `(1.0 + w) × x` 不是 `w × x`	Qwen 3 系 RMSNorm 是 +1 偏移。照 Llama 抄数值偏 ~10x
[02](tutorials/02_rope_three_gotchas.md)	RoPE 三个连环坑	theta 在 `rope_parameters`(不是 `rope_theta`)+ `partial_rotary_factor=0.25` + GPT-NeoX 半切(不是 Qwen 2 even/odd)
[03](tutorials/03_attn_output_gate.md)	q_proj 是 2× per-head 切分	必须先 view 成 (..., H_Q, 2*head_dim) 再 chunk,否则 head_i_gate 混进 head_i_q
[04](tutorials/04_gated_delta_net.md)	linear_attention = GatedDeltaNet	Mamba 风格 chunk 递推 + delta rule + l2norm Q/K
[05](tutorials/05_three_invisible_bugs.md)	三个 self-consistent bug 复盘	reference + lynn 同源同错 = 自一致测试假阳的教训
[06](tutorials/06_moe_router_softmax_topk_order.md)	MoE router order + shared expert	Qwen 用 softmax-all → topK → renormalize,跟 naive 数学等价但精度路径不同
[07](tutorials/07_lora_on_gated_delta_net.md)	给 GatedDeltaNet 加 LoRA	哪些线性层可加 / 哪些不能 / r=384 用于 Recovery 的理由

tutorials/posts/zhihu_qwen36_engine_postmortem.md 是知乎博客风格的合集长文。

快速上手(R6000 / Blackwell)

```bash

3. 运行 resident smoke

python benchmarks/resident_cli.py \ --model "$MODEL" \ --prompts-jsonl /root/autodl-tmp/reports/lynn-engine-p5/p7i_6prompt.jsonl \ --max-new 32 \ --chat-template \ --out /tmp/lynn_27b_nvfp4_smoke.json

2. 启用当前 R6000 best env

export PYTHONPATH=/root/autodl-tmp/lynn-engine export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True export LYNN_PREFILL_WARMUP=1 export LYNN_LINEAR_ATTN_RECURRENT_BACKEND=triton_fused_prepare export LYNN_LINEAR_ATTN_RECURRENT_INPLACE=1 export LYNN_MOE_IMPL=packed_nvfp4 export LYNN_QK_NORM_ROPE_BACKEND=triton_pair export LYNN_RMSNORM_GATED_BACKEND=triton export LYNN_LINEAR_ATTN_INPROJ_FUSED_NATIVE_FP4=1 export LYNN_NATIVE_FP4_LM_HEAD=1 export LYNN_LINEAR_STATE_UPDATE=inplace export LYNN_LINEAR_BLOCK_GRAPH=1 export LYNN_LINEAR_BLOCK_GRAPH_REUSE=1 export LYNN_LINEAR_BLOCK_GRAPH_PREWARM=1 export LYNN_PACKED_DECODE=0 export LYNN_PACKED_DECODE_PREPARE_NATIVE=0 export LYNN_PACKED_SHARED_EXPERT=0

短期(2-4 周):Lynn 客户端 llama.cpp 集成 ship 路径

层	角色	实现
底层推理	llama.cpp ecosystem	Mac Metal / Windows / Linux CUDA 全平台 + Q4_K_M GGUF
默认模型	Qwen3.5-9B Q4_K_M-imatrix(5.3 GB)	80% 用户 9B 已经够好
Pro 模型	Qwen3.6-35B-A3B Q4_K_M-imatrix(20 GB)	NVIDIA 24GB+ 用户 opt-in,llama.cpp 同栈
Lynn 客户端	自动硬件 detect + install llama.cpp + 下载模型 + 启 server + 注册 provider + tool-call 门禁 + 本地优先 routing	Electron + brain backend(本仓姊妹仓 `MerkyorLynn/Lynn`)
Lynn 智能体	tool routing / 6 层 memory / MCP / skills / 跨模型 fallback	Lynn 真护城河

llama.cpp 负责"跑得起来、跑得快、装得小"。Lynn 负责"会用模型、会调工具、会记忆、会自动配置"。

35B 横向对比(Spark sm_121 GB10 单流;baseline 2026-05-18,lynn-engine 行 6/3 战役更新)

路径	模型大小	单流 TPS	MMLU 500	GPQA Diamond 198	备注
Lynn-native NVFP4 W4A16 / lynn-engine	23 GB	38.96 → ~45	84.40%	49.49%	5/18 base → 6/3 launch-overhead 战役(5 cut,RC-validated)
llama.cpp Q4_K_M-imatrix	20 GB	69.77	83.00%	50.00%	同硬件 ~1.55× lynn-engine — 6/3 实测 Spark NVFP4 decode 结构性卡 ~45(带宽 + dispatch 杠杆均已否决);parity 需 ggml 级重写 / FP4-MMA 硅,非 Spark 交付目标
llama.cpp APEX-MTP I-Balanced	25 GB	77.01	90.00% thinking32	78.79% / 83.87% excl_pf thinking32	当前 Spark 单流最快;高并发仍需 AR admission
SGLang BF16 official	67 GB	30.14	86.40%	45.45%	reference
Lynn W4A8 FP8(工程探索期)	35 GB	—	—	—	架构未完成,见 RELEASE_NOTES

关键发现:35B 量化三档 GPQA 几乎平(BF16 / Q4_K_M-imatrix / Lynn NVFP4 都在 49.5±1pp)。我们以前期待的 "NVFP4 GPQA 优势"在足量样本上不成立。

9B Q4_K_M-imatrix 默认 ship 候选(thinking-on excl_pf MMLU 90+ / GPQA 80+ / 5GB)

维度	Lynn 默认 ship 9B Q4_K_M-imatrix
模型文件	5.3 GB(Q4_K_M-imatrix GGUF)
llama.cpp runtime	79 MB(C++ binaries + .so)
总安装体积	5.4 GB 整
MMLU 100 thinking-on excl_pf	90.00%(81/90)
GPQA Diamond 198 thinking-on excl_pf	81.71%
Spark sm_121 单流 TPS	36.80
Spark sm_121 c=8 concurrent total TPS	177.54
Mac / Windows / Linux CUDA	全平台原生支持