AI快讯 2026-06-06 来源：Reddit r/LocalLLaMA

AI 前沿资讯：120 tok/s on 12GB VRAM with Ge…

📄 事件摘要

Google just released the QAT (Quantization-Aware Training) variant of their Gemma 4 models, including 12B, so it was only natural for me to benchmark it on my 12GB GPU since it fits entirely in VRAM. I was pleasantly surprised with the result! By using llama.cpp patched with the Gemma 4 MTP PR, and loading Unsloths gemma-4-12B-it-qat-GGUF quant and Googles gemma-4-12B-it-qat-q4_0-unquantized-assis…

🌐 事件背景

此消息由 Reddit r/LocalLLaMA 社区率先披露，AI快讯领域的动态往往能够反映整个行业的技术方向与投资热点。近年来，AI 工具与基础设施的快速迭代，使得此类来自开源社区的技术进展具有重要的参考价值。

💡 为什么值得关注

在社区引发活跃讨论，体现了开发者社区对此事件的高度重视。对于关注AI快讯的从业者而言，这意味着可能出现新的技术路径、工具选择或行业标准。保持对此类信息的敏感度，有助于在快速变化的 AI 时代保持竞争优势。

✦ AI Skill Hub 观点

从 AI Skill Hub 的视角来看，此类AI快讯领域的技术进展，往往预示着新的工具和解决方案即将涌现。我们将持续追踪相关动态，为中文用户提供及时、准确的 AI 技能与资讯聚合服务。

📰 相关资讯