Transformer 中 Decoder 的 Masked Self-Attention 是如何实现“隐身”未来的?Masked Self-Attention 实现“隐身”未来,核心依靠的是“因果掩码(Causal Mask)”技术,即在 Softmax 计算前对注意力得分矩阵进行矩阵级别的“遮蔽”。物理防偷看:在计算QKTQK^TQK