深度解读 SmallThinker：专为手机设计的 MoE 大模型，以及我们能否给 Qwen3 动“手术“

张

张建站

2026/6/5 10:37:51

10分钟阅读

深度解读 SmallThinker：专为手机设计的 MoE 大模型，以及我们能否给 Qwen3 动"手术"这篇是对 SmallThinker 论文（arxiv 2507.20984）的完整技术解读,穿插大白话和我们在 Qwen3-30B-A3B 上的实战对比。最后讨论一个大胆的问题：能不能给 Qwen3 也加 pre-attention router，小训一下就获得 SmallThinker 的速度优势？一、SmallThinker 在干什么（一句话）“如果大模型从一开始就为手机设计，而不是把云端模型往手机上硬塞，会是什么样？”SmallThinker 是上海交大 IPADS 实验室（PowerInfer 团队）的回答。它不是"压缩现有模型",而是从头训练了一个专为端侧设计的 MoE 模型,把"内存小、算力弱、存储慢"当成设计约束,反过来驱动架构创新。核心数字:SmallThinker-21B-A3B 在骁龙 8 Gen 4 上 23 t/s（全量进内存）/ 8GB 限制下 15.5 t/s,而同等能力的 Qwen3-30B-A3B 在 8GB 限制下只有0.18 t/s——差86 倍。二、模型架构：三个关键设计

中文新闻情感打分小工具：不用GPU，靠TF-IDF+余弦相似度快速判别喜怒哀乐

本文还有配套的精品资源，点击获取简介：直接跑在普通电脑上的新闻情感分析工具，输入一篇中文新闻，自动切分成句子，用jieba分词后转成TF-IDF向量，再和内置的情感词典向量算余弦相似度，得出正向…...

2026/6/5 10:35:41 阅读更多 →

Python库存优化实战：需求分解、Gamma交期建模与Pyomo求解

1. 项目概述：这不是“预测库存”，而是让库存自己学会呼吸“Inventory Optimization with Data Science: Hands-On Tutorial with Python”——这个标题里藏着一个被太多人误读的真相：它根本不是教你怎么用Python画几条预测曲线，然…...

2026/6/5 10:33:06 阅读更多 →