Oct, 2023

基于 Transformer 的上下文学习与对比学习模式等效

TL;DR我们通过内在对比学习的角度解释了预训练大型语言模型的推理过程,分析了梯度下降和自注意机制之间的关系,并提出了对比学习模式的改进,以进一步修改自注意层。