Jun, 2024

LLM 的潜在概念关联和转换器中的联想记忆

TL;DR大型语言模型具有存储和提取事实的能力,并且可以通过改变上下文来操纵提取事实的能力,揭示出它们可能像联想记忆模型一样行为,其中上下文中的某些令牌作为提取事实的线索。我们通过研究 transformer 如何完成此类记忆任务,对这一属性进行了数学探索,使用一个简单的单层 transformer 研究了简单的潜在概念关联问题,理论和经验都表明 transformer 使用自注意力来收集信息并使用值矩阵进行联想记忆。