ICLRFeb, 2024

Transformer 前馈层中关键值记忆更新的实证研究

TL;DR通过在大型语言模型中的知识编辑和微调任务中比较更新键或值的两种方法,我们对 transformer 中的前馈网络进行了实证消融研究,从而更好地理解前馈网络作为一组键值神经存储器来恢复抽象高层知识。