变形金刚中的大规模内存编辑
该研究提出了 $MEMIT_{CSK}$,它是一种适用于常识知识的记忆编辑方法,并在 GPT-2 Large 和 XL 中进行了实验,优于调参方法 10.97%和 10.73% F1 分数。结果表明,通过直接编辑模型来校正和定制模型行为,结合特定于上下文的用户反馈,可以将 $MEMIT_{CSK}$ 应用于 GPT 中的常识,而这一方法未来还有着很大的发展前景。
May, 2023
本文介绍了一种使用内部储存器实现直接读取并记忆新数据的语言模型,在多个基准测试和任务中展示了近似 kNN 查找技术,着重测试了代码和数学等领域,并证明了随着储存器大小的增加,性能将稳步提高。
Mar, 2022
预训练语言模型在推理时过长的输入会迅速成为记忆信息的瓶颈。本文提出了一种简单的方法,使用记忆转换器给模型提供预先计算的记忆库,通过批判性评估定位编码应如何更新以检索关键信息,而非使用外部嵌入。我们展示了在大多数解码器层中检索外部信息的重要性,并公开了一个新的反事实长距离检索基准。实验证明,扩展心智转换器在平均性能上超过了当今的最先进水平。
Jun, 2024
MEMORYLLM 是一个自我更新且具有信息记忆能力的模型,它通过在 transformer 的潜在空间中引入固定大小的内存池,能够有效地整合新知识并保持长期信息记录能力,同时维持操作性完整性。
Feb, 2024
使用 MAssive Language Model Editing Network (MALMEN) 方法,以超网络生成参数移位来校正大型语言模型中的知识误差和过时问题。该方法可同时编辑多个事实,并比特定于 GPT 的编辑器在知识密集型 NLP 任务上表现更佳。
Nov, 2023
增加 Transformer 模型的大小并不总是导致性能提升,用经验缩放定律无法解释此现象。此外,模型记忆训练样本会改善泛化能力。我们提出了一个理论框架,揭示了基于 Transformer 的语言模型的记忆过程和性能动态。我们使用关联记忆的 Hopfield 网络来模拟 Transformer 的行为,使每个 Transformer 模块能够有效进行近似最近邻搜索。基于此,我们设计了一个能量函数,类似于现代连续 Hopfield 网络中的函数,对注意力机制提供了有见地的解释。利用最大化 - 最小化技术,我们构建了一个全局能量函数,捕捉了 Transformer 的层次结构。在特定条件下,我们证明了最小可达的交叉熵损失下界约为 1。通过对不同数据规模运行 GPT-2 实验证实了我们的理论结果,以及在一个包含 2M 令牌的数据集上训练 vanilla Transformers。
May, 2024
本文提出了一个新任务,即在确保模型在未修改的信息方面的性能不降低的情况下显式修改 Transformer 模型中特定的事实知识,并在此任务上基准化了几种方法,发现了用于知识修改的 Transformer 模型的关键组件,并提供了关于不同训练阶段(如预训练和微调)对记忆和知识修改所起作用的见解。
Dec, 2020
该论文提出了一种利用 Transformer 模型中的半参数表示以及文本语料库的 “指向记忆” 来提取多个文本来源的事实信息的方法,称为 TOME,并在多个实验中证明其在自然语言理解任务中的优异表现。
Oct, 2021
提出了一种称为 TRAining-free Memory Selection (TRAMS) 的插拔式策略,通过一个简单的评价指标选择参与注意力计算的令牌,从而改善长程语言建模的挑战,无需额外训练或添加参数,通过在 word-level benchmark (WikiText-103) 和 character-level benchmark (enwik8) 上的测试取得了改进的结果。
Oct, 2023
通过利用编码器 - 解码器 Transformers 的生成能力,我们提出了一种新的方法来持续学习神经机器翻译系统,以有效地从包含不同语言的经验流中学习,通过使用模型作为生成器填充重播记忆来对抗灾难性遗忘,而无需明确记忆训练数据。
Mar, 2024