Hello I have an rtx 5060Ti and I tried running unsloths Qwen3.6-35B GGUF with MTP. However in both cases I have around 60 tok/s. Here are my flags: llama-server -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_M --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --alias unsloth/Qwen3.6 --port 8002 --kv-unified --cache-type-k q8_0 --cache-type-v q8_0 --flash-attn on --fit on --no-mmproj --ctx-size 64000 For t…
在 AI 技术高速发展的背景下,来自 Reddit r/LocalLLaMA 等一线技术社区的动态往往是行业趋势的晴雨表。这条关于AI快讯的内容,值得从业者认真关注和深入研究。
在 AI 技术快速演进的当下,AI快讯领域的每一次重要突破都可能重塑行业格局。在社区引发活跃讨论,这意味着它已获得业内人士的广泛认可,值得深入研究和持续关注。
AI Skill Hub 点评:这则消息值得AI快讯领域从业者认真对待。在 AI 技术百花齐放的时代,保持对前沿动态的关注、同时具备独立判断能力,是在 AI 浪潮中保持竞争力的关键所在。
📌 免责声明:本页面内容由 AI Skill Hub 平台基于公开信息自动聚合整理, 事件摘要、背景分析及观点仅供参考,不构成任何投资或商业建议。 如需完整信息,请访问上方原始来源链接。