深度解读 SmallThinker:专为手机设计的 MoE 大模型,以及我们能否给 Qwen3 动"手术"这篇是对 SmallThinker 论文(arxiv 2507.20984)的完整技术解读,穿插大白话和我们在 Qwen3-30B-A3B 上的实战对比。最后讨论一个大胆的问题:能不能给 Qwen3 也加 pre-attention router,小训一下就获得 SmallThinker 的速度优势?一、SmallThinker 在干什么(一句话)“如果大模型从一开始就为手机设计,而不是把云端模型往手机上硬塞,会是什么样?”SmallThinker 是上海交大 IPADS 实验室(PowerInfer 团队)的回答。它不是"压缩现有模型",而是从头训练了一个专为端侧设计的 MoE 模型,把"内存小、算力弱、存储慢"当成设计约束,反过来驱动架构创新。核心数字:SmallThinker-21B-A3B 在骁龙 8 Gen 4 上 23 t/s(全量进内存)/ 8GB 限制下 15.5 t/s,而同等能力的 Qwen3-30B-A3B 在 8GB 限制下只有0.18 t/s——差86 倍。二、模型架构:三个关键设计