【AIGC】大模型面试高频考点06-LLM篇
【AIGC】大模型面试高频考点-LLM篇(1)介绍LoRA的原理?(2)介绍LayerNorm?(3)介绍RMSNorm?(4)RMSNorm比LayerNorm好?(5)Encoder-only、Encoder-Decoder、Decoder-only 的区别?(6)为什么现在的LLM都是Decoder only的架构?(7)介绍Transformer?(8)在BERT中,token分3种情况做mask,分别的作用是什么?(9)BERT训练时使用的学习率 warm-up 策略是怎样的?为什么要这么做?(10)BERT预训练任务?(11)BERT预训练过程的损失函数?(12)BERT比ELMo效果好?ELMo和BERT的区别?(13)RNN与GNN之间有哪些区别,以及它们各自适用于哪些场景?(1)介绍LoRA的原理?LoRA的基本原理是冻结预训练的模型参数,然后在Transfomer的每一层中加入一个可训练的旁路矩阵(低秩可分离矩阵),接着将旁路输出与初始路径输出相加输入到网络当中,并只训练这些新增的旁路矩阵参数。其中,低秩可分离矩阵由两个矩阵组成,第一个矩阵负责降维,第二个矩阵负责升维,中间层维度为r,从而来模拟本征秩(intrinsic rank),这两个低秩矩阵能够大幅度减小参数量。(2)介绍LayerNorm?(3)介绍RMSNorm?(4)RMSNorm比LayerNorm好?简单来说就是,虽然二者的时间复杂度一致,但是RMSNorm