专栏:大模型应用开发:从原理到生产篇号:06内容标签:Attention、Transformer、大模型、人工智能、深度学习上一篇我们讲 Transformer 时,留下了一个真正的核心问题:模型到底是怎么利用上下文的?很多人第一次学大模型,会把“上下文理解”想得很神秘,好像模型读完一整段话之后,在内部形成了某种完整的意识。但从工程角度看,事情没有这么玄。在 Transformer 里,所谓“看懂上下文”,首先是一件计算权重的事。当前 Token 在每一层里都会问一个问题:我现在要更新自己的表示,应该重点参考上下文里的哪些 Token?这个问题,就是 Attention 机制要回答的问题。它不等于人类理解,也不等于事实判断,更不等于模型真的知道自己在说什么。它只是让模型有能力在一段输入里建立 Token 与 Token 之间的关联。但正是这个能力,撑起了现代大模型最重要的一部分表现:指代消解、语义组合、长距离依赖、上下文续写、代码补全、多轮对话、RAG 片段利用,后面几乎所有应用工程问题都绕不开它。这篇文章不推复杂公式,我们把 Attention 拆成三个问题:该看谁?看多少?