AI Skill Hub 强烈推荐:Lynn AI推理引擎 是一款优质的AI工具。AI 综合评分 8.0 分,在同类工具中表现稳健。如果你正在寻找可靠的AI工具解决方案,这是一个值得深入了解的选择。
Lynn AI推理引擎是一个开源的AI工具,支持W4A8/NVFP4量化、自写CUDA/Triton kernel、MoE和投机解码,适合深度学习和AI推理应用
Lynn AI推理引擎 是一款基于 Python 开发的开源工具,专注于 AI推理、深度学习、CUDA 等核心功能。作为 GitHub 开源项目,它拥有活跃的社区支持和持续的版本迭代,代码完全透明可审计,支持本地部署以保护数据隐私。无论是个人使用还是集成到企业工作流,都能提供稳定可靠的解决方案。
Lynn AI推理引擎是一个开源的AI工具,支持W4A8/NVFP4量化、自写CUDA/Triton kernel、MoE和投机解码,适合深度学习和AI推理应用
Lynn AI推理引擎 是一款基于 Python 开发的开源工具,专注于 AI推理、深度学习、CUDA 等核心功能。作为 GitHub 开源项目,它拥有活跃的社区支持和持续的版本迭代,代码完全透明可审计,支持本地部署以保护数据隐私。无论是个人使用还是集成到企业工作流,都能提供稳定可靠的解决方案。
# 方式一:pip 安装(推荐)
pip install lynn-engine
# 方式二:虚拟环境安装(推荐生产环境)
python -m venv .venv
source .venv/bin/activate # Windows: .venv\Scripts\activate
pip install lynn-engine
# 方式三:从源码安装(获取最新功能)
git clone https://github.com/MerkyorLynn/lynn-engine
cd lynn-engine
pip install -e .
# 验证安装
python -c "import lynn_engine; print('安装成功')"
# 命令行使用
lynn-engine --help
# 基本用法
lynn-engine input_file -o output_file
# Python 代码中调用
import lynn_engine
# 示例
result = lynn_engine.process("input")
print(result)
# lynn-engine 配置文件示例(config.yml) app: name: "lynn-engine" debug: false log_level: "INFO" # 运行时指定配置文件 lynn-engine --config config.yml # 或通过环境变量配置 export LYNN_ENGINE_API_KEY="your-key" export LYNN_ENGINE_OUTPUT_DIR="./output"
🚀 战略校正(2026-06-03):Lynn engine 重启为并行主线,目标「对标 llama.cpp」,不再是"降级为 R&D / 只用 llama.cpp"。 客户端短期仍以 llama.cpp/GGUF 为务实默认后端;引擎并行推进——同模型同硬件对标 llama.cpp,终局 = 自己啃下融合 4-bit / 零-shadow 内核(单投影 PoC → 全 dense + 删 shadow → MoE grouped 专家 → 融合减 launch,每阶段 gate + RC),在 FP4-MMA 卡(R6000 一代)上逼近乃至超过。做引擎,要做就自己把内核啃下来。 ✅ 自有核心已 bank 的最新突破: 35B NVFP4 服务已把 decode 阶段 BF16 dequant-shadow 从常驻内存中释放,resident 88→28 GiB(省 ~60 GiB),token-exact,TPS 0.998× 无回归;server/openai_http.py已接入reload→prefill→release→decode服务循环。P0.1/P0.2 packed-prefill gates 已过:释放 60GiB shadow 后不调用 reload,stream_bf16证明 token-exact no-reload prefill(peak 40.28 GiB,proof prefill 20.75s);P0.2 resident inventory 显示 after-release BF16 只剩 4.72 GiB。2026-06-04 P1 单 dense projection PoC 已过:真实linear_attn.in_proj_qkv从 packed E2M1 + FP16 scale 直接跑 Triton matvec,不读 BF16 shadow,numeric PASS,32.00→10.00 MiB(3.20×),160.29us vs BF16 190.03us = 1.186×。P1-A naive + tiled scalar batched bridges 均已反证:数值/no-shadow 过,但 M>1 仍输 BF16 tensor-core GEMM。P2 grouped MoE 已推进到 P2-I:P2-F 已接入 engine opt-in modeLYNN_PACKED_PREFILL_SLOW_MODE=p2e_hybrid;P2-H 进入完整_prefill_layer链路(RMSNorm + linear/full attention cache + MoE),mixed L0-3 T16 45.97ms vs BF16 58.57ms = 1.274x,比stream_bf16快 52.09x;P2-I 扩到 mixed L0-7 T16 88.96ms vs BF16 113.82ms = 1.279x,比stream_bf16快 46.70x,numeric pass,peak 5.123GiB vs stream 17.102GiB。下一关是 P2-J linear-attn prefill trace。Python 只做控制面和验证,追赶 llama.cpp 靠 CUDA C++/CUTLASS/native kernel。
🆕 2026-06-03 Decode 内核启动开销战役 — Spark NVFP4 35B-A3B 单流 38.96 → ~45 TPS,质量 RC 等价。 实测 decode 是 launch-bound(census:~1527 CUDA launch/token,~40% 时间耗在 CPU 端 dispatch)。逐簇融合 launch + 消拷贝:fused RMSNorm(最大头)/ shared-expert / linear-attn g/beta-fold / full-attn(token-exact)/ NVFP4 _scaled_mm bf16-out copy-elision,5 个 RC-validated launch-cut——在 structured/V9/GPQA/tool-call/long-form 上 40/40 greedy 输出与 baseline 逐字一致,继承 MMLU 84.40 / GPQA-Diamond 49.49。全部 gated、默认安全、可回滚。 🎯 关于对标 llama.cpp(口径已据 6/3 evidence-lock 校正)。 同硬件 Q4_K_M 69.77 领先 ~1.5×。起初以为根因是 BF16 dequant-shadow 的 ~2× 带宽墙、写个零-shadow 内核就能把墙从 ~40 推到 ~140;6/3 实测(2 个无头 CLI 代码 trace + 4 个 Spark 探针)把这个前提证伪了:read-4bit 其实已做(MoE 专家走「packed-4bit→寄存器反量化→bf16 GEMV」Triton 核)、那 60 GiB BF16 是 prefill 专用(decode 整块删掉照跑、TPS 不降 42.4→43.7)、把 attn 改读 FP4 无收益甚至更慢(full-attn 0.999× / linear out_proj 0.775×)、reusable decode CUDA graph 净负 0.75×。→ decode 是 launch-bound,且 Spark sm_121(无 FP4 MMA)结构性卡 ~45。 与 69.77 的差距是 llama.cpp 手写、低-dispatch、成熟度极高的 ggml CUDA —— 需 ground-up 内核重写 + 最终 FP4-MMA 硅(R6000 已退租),不是 Spark 的交付目标。本轮 bankable 红利:decode-only 删 shadow → 常驻 87→27 GiB(腾 60 GiB 给 KV/长上下文/batch)。跨设备内核 moat(同套 NVFP4 权重挪 FP4-MMA 卡变 native)逻辑仍在,有那张卡时才兑现。详见 decode launch-overhead campaign。
🆕 2026-05-28 Qwen3.6-35B-A3B update — Spark 已切到最快 APEX-MTP I-Balanced 单流路线。 当前lynn-apex-mtp-llamacpp.service使用Qwen3.6-35B-A3B-APEX-MTP-I-Balanced.gguf+--spec-type draft-mtp --spec-draft-n-max 4。 短 A/B:单流 77.01 tok/s vs AR 60.65 tok/s(+27%);生产 sanity 中位 76.19 tok/s。 既有 32K thinking-on 质量锚点:MMLU500 90.00% / GPQA198 78.79% naive,83.87% excl parse fail / tool-call 12/15。 详见 APEX-MTP service A/B, 32K quality refresh status,以及 知乎/公众号草稿。
🆕 2026-05-27 Active R&D update — Lynn engine 没有放弃,正在把 Nemotron-style self-spec 的可移植部分落到 Qwen35 APEX-MTP。 (历史记录;最新口径以顶部 6/3 重启校正为准)当时客户端默认走 llama.cpp/GGUF,engine 研发线持续推进: Qwen3.6-35B-A3B W4A16 + official APEX/MTP sidecar 已跑通 K=2 verify/accept/crop/full-accept/prefix-repair token-exact smoke。 当前 blocker 不是算法控制流,而是 K2 verifier 的 T=1-equivalent attention / o_proj kernel 成本。详见 5/27 active status 和 Qwen35 MTP block verifier log。 简单说:产品 fallback 先用 llama.cpp,但 Lynn engine 主线正在继续吃 APEX-MTP / K=N / self-spec 这条硬路线。
🆕 2026-05-20 状态变更(⚠️ 已被顶部 6/3 重启校正取代)— 当时把 Lynn engine 降级为 R&D 持续探索路径;现引擎已重启为对标 llama.cpp 的并行主线。 Lynn 客户端短期投奔 llama.cpp 生态作为默认本地推理底层(Mac Metal / Win MSVC / Linux CUDA 全平台 + Q4_K_M GGUF)。 默认 ship 模型 = Qwen3.5-9B Q4_K_M-imatrix(5.3GB) thinking-on excl_pf MMLU 90+ / GPQA 80+。 历史决策见 5/20 Release Notes;当前权威状态见 6/3 Restart Notes。 Lynn engine 工程财产全留(5 CLI 并行 + 7 bug fix trail + 178s repack + autotune sweep 2160 config 都是真东西)。回主线门槛:同硬件同模型速度接近或超过 llama.cpp,且质量有不可替代优势。 ⚠️ 以下 5/16 状态文档保留作历史进度记录,最新状态以 RELEASE_NOTES_20260603 为准。
---
为 NVIDIA Blackwell 写的 Lynn 27B-A3B NVFP4 单模型推理引擎。 从零写,锁定 Lynn 自家的 variable-pruned MoE + NVFP4 格式,目标很窄也很硬:在 R6000 / Spark 这类 Blackwell 机器上,把 Lynn 27B A3B MoE 基座跑成可生产、可优化、可长期接管的推理内核。
Read in English · 📝 6月知乎连载:从零开始 Qwen 3.6 35B-A3B 写专用推理引擎踩坑心得分享 · 战略文档 · 架构设计 · 🆕 6/3 Restart Notes · P1 dense projection PoC · P1-A tiled sweep · P2 grouped MoE census · P2-G multi-layer MoE smoke · P2-H selected-layer prefill smoke · P2-I selected-MoE expansion · 5/20 历史 Release Notes
| 硬件 | VRAM | 状态 |
|---|---|---|
| **DGX Spark**(GB10 sm_121,unified 119GB) | 119 GB | C 阶段开发主力 |
| **RTX 5090 笔记本**(sm_120,24GB) | 24 GB | **Lynn-27B-A3B-NVFP4 占 ~20 GB,4 GB 余量给 16K context** ✅ |
| **RTX 5090 台式机**(sm_120,32GB) | 32 GB | 预期 180-250 t/s,32K context 宽裕 |
| **RTX PRO 6000 Blackwell**(sm_120,96GB) | 96 GB | 多 LoRA 切换 + 长 context 扩展 |
| ~~4090 / Ada~~ | — | 不支持(没 FP4 tensor cores) |
| ~~A100 / H100 / Hopper~~ | — | 不支持(同上,FP4 emulation 不值) |
| ~~Ampere / Volta~~ | — | 不支持(老) |
写 Lynn engine 时,我们挖出了 Qwen 3.6 35B-A3B 跟 Llama / Qwen 2 不一样、文档没写明的怪癖。共 7 篇深度文章在 tutorials/:
| # | 主题 | 一句话 |
|---|---|---|
| [01](tutorials/01_rmsnorm_one_plus_weight.md) | RMSNorm (1.0 + w) × x 不是 w × x | Qwen 3 系 RMSNorm 是 +1 偏移。照 Llama 抄数值偏 ~10x |
| [02](tutorials/02_rope_three_gotchas.md) | RoPE 三个连环坑 | theta 在 rope_parameters(不是 rope_theta)+ partial_rotary_factor=0.25 + GPT-NeoX 半切(不是 Qwen 2 even/odd) |
| [03](tutorials/03_attn_output_gate.md) | q_proj 是 2× per-head 切分 | 必须先 view 成 (..., H_Q, 2*head_dim) 再 chunk,否则 head_i_gate 混进 head_i_q |
| [04](tutorials/04_gated_delta_net.md) | linear_attention = GatedDeltaNet | Mamba 风格 chunk 递推 + delta rule + l2norm Q/K |
| [05](tutorials/05_three_invisible_bugs.md) | 三个 self-consistent bug 复盘 | reference + lynn 同源同错 = 自一致测试假阳的教训 |
| [06](tutorials/06_moe_router_softmax_topk_order.md) | MoE router order + shared expert | Qwen 用 softmax-all → topK → renormalize,跟 naive 数学等价但精度路径不同 |
| [07](tutorials/07_lora_on_gated_delta_net.md) | 给 GatedDeltaNet 加 LoRA | 哪些线性层可加 / 哪些不能 / r=384 用于 Recovery 的理由 |
tutorials/posts/zhihu_qwen36_engine_postmortem.md 是知乎博客风格的合集长文。
```bash
python benchmarks/resident_cli.py \ --model "$MODEL" \ --prompts-jsonl /root/autodl-tmp/reports/lynn-engine-p5/p7i_6prompt.jsonl \ --max-new 32 \ --chat-template \ --out /tmp/lynn_27b_nvfp4_smoke.json
export PYTHONPATH=/root/autodl-tmp/lynn-engine export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True export LYNN_PREFILL_WARMUP=1 export LYNN_LINEAR_ATTN_RECURRENT_BACKEND=triton_fused_prepare export LYNN_LINEAR_ATTN_RECURRENT_INPLACE=1 export LYNN_MOE_IMPL=packed_nvfp4 export LYNN_QK_NORM_ROPE_BACKEND=triton_pair export LYNN_RMSNORM_GATED_BACKEND=triton export LYNN_LINEAR_ATTN_INPROJ_FUSED_NATIVE_FP4=1 export LYNN_NATIVE_FP4_LM_HEAD=1 export LYNN_LINEAR_STATE_UPDATE=inplace export LYNN_LINEAR_BLOCK_GRAPH=1 export LYNN_LINEAR_BLOCK_GRAPH_REUSE=1 export LYNN_LINEAR_BLOCK_GRAPH_PREWARM=1 export LYNN_PACKED_DECODE=0 export LYNN_PACKED_DECODE_PREPARE_NATIVE=0 export LYNN_PACKED_SHARED_EXPERT=0
| 层 | 角色 | 实现 |
|---|---|---|
| **底层推理** | llama.cpp ecosystem | Mac Metal / Windows / Linux CUDA 全平台 + Q4_K_M GGUF |
| **默认模型** | Qwen3.5-9B Q4_K_M-imatrix(5.3 GB) | 80% 用户 9B 已经够好 |
| **Pro 模型** | Qwen3.6-35B-A3B Q4_K_M-imatrix(20 GB) | NVIDIA 24GB+ 用户 opt-in,llama.cpp 同栈 |
| **Lynn 客户端** | 自动硬件 detect + install llama.cpp + 下载模型 + 启 server + 注册 provider + tool-call 门禁 + 本地优先 routing | Electron + brain backend(本仓姊妹仓 MerkyorLynn/Lynn) |
| **Lynn 智能体** | tool routing / 6 层 memory / MCP / skills / 跨模型 fallback | Lynn 真护城河 |
llama.cpp 负责"跑得起来、跑得快、装得小"。Lynn 负责"会用模型、会调工具、会记忆、会自动配置"。
| 路径 | 模型大小 | 单流 TPS | MMLU 500 | GPQA Diamond 198 | 备注 |
|---|---|---|---|---|---|
| Lynn-native NVFP4 W4A16 / lynn-engine | 23 GB | **38.96 → ~45** | 84.40% | 49.49% | 5/18 base → **6/3 launch-overhead 战役(5 cut,RC-validated)** |
| **llama.cpp Q4_K_M-imatrix** | **20 GB** | **69.77** | 83.00% | **50.00%** | 同硬件 ~1.55× lynn-engine — 6/3 实测 Spark NVFP4 decode 结构性卡 ~45(带宽 + dispatch 杠杆均已否决);parity 需 ggml 级重写 / FP4-MMA 硅,**非 Spark 交付目标** |
| **llama.cpp APEX-MTP I-Balanced** | **25 GB** | **77.01** | **90.00% thinking32** | **78.79% / 83.87% excl_pf thinking32** | 当前 Spark 单流最快;高并发仍需 AR admission |
| SGLang BF16 official | 67 GB | 30.14 | 86.40% | 45.45% | reference |
| Lynn W4A8 FP8(工程探索期) | 35 GB | — | — | — | 架构未完成,见 RELEASE_NOTES |
关键发现:35B 量化三档 GPQA 几乎平(BF16 / Q4_K_M-imatrix / Lynn NVFP4 都在 49.5±1pp)。我们以前期待的 "NVFP4 GPQA 优势"在足量样本上不成立。
| 维度 | Lynn 默认 ship 9B Q4_K_M-imatrix |
|---|---|
| 模型文件 | **5.3 GB**(Q4_K_M-imatrix GGUF) |
| llama.cpp runtime | 79 MB(C++ binaries + .so) |
| **总安装体积** | **5.4 GB 整** |
| MMLU 100 thinking-on excl_pf | **90.00%**(81/90) |
| GPQA Diamond 198 thinking-on excl_pf | **81.71%** |
| Spark sm_121 单流 TPS | 36.80 |
| Spark sm_121 c=8 concurrent total TPS | **177.54** |
| Mac / Windows / Linux CUDA | 全平台原生支持 |
普通用户最直观的卖点 = "本地无限 token":9B 跑本地,无 quota / 无 API key / 无跨境延迟,智能体跑一晚不限消费。
Lynn AI推理引擎是一个高性能的AI推理工具,支持多种量化和解码方式,适合深度学习和AI应用
该工具未明确声明开源协议,商业使用前请联系原作者确认授权范围,避免侵权风险。
AI Skill Hub 为第三方内容聚合平台,本页面信息基于公开数据整理,不对工具功能和质量作任何法律背书。
建议在沙箱或测试环境中充分验证后,再部署至生产环境,并做好必要的安全评估。
总体来看,Lynn AI推理引擎 是一款质量优秀的AI工具,在同类工具中具备一定竞争力。AI Skill Hub 将持续追踪其更新动态,建议收藏备用,结合自身场景选择合适时机引入使用。
| 原始名称 | lynn-engine |
| Topics | AI推理深度学习CUDAPython |
| GitHub | https://github.com/MerkyorLynn/lynn-engine |
| 语言 | Python |
收录时间:2026-06-03 · 更新时间:2026-06-03 · License:未公布 · AI Skill Hub 不对第三方内容的准确性作法律背书。