记忆痕迹:Transformer 是否为图灵机?
用 Tulving 测试来研究记忆表现,评估 Synergistic Ecphory 模型和类似 RK 范式在人类表现中的相关性,首次探究四十多年的框架对 LLMs 的记忆行为是否有所启示。
Feb, 2024
认知科学和大型语言模型(LLMs)的发展使得这两个领域之间的联系被揭示出来。建立在这些联系之上,我们提出了一种假设,认为 LLMs 与图尔文的记忆理论之间存在一种二元性。我们确定了图尔文的协同映射培养模型(SEM)的检索与 LLMs 中观察到的新能力之间的潜在对应关系,为我们的假设提供了支持证据。此外,我们推测意识可能被视为这种二元性的一种新能力形式。我们还讨论了其他意识理论如何与我们的研究相交叉。
Jan, 2024
本研究使用合成机制来考察 transformers 在处理全局信息与上下文信息时的权衡,发现这些模型相对较快地学习了全局信息,但对于上下文信息中的二元组的识别则较慢,同时探究了权重矩阵作为联想记忆的作用以及梯度如何使其在训练时进行学习的理论机制,同时研究了数据分布属性的作用。
Jun, 2023
本文提出了一种基于内部工作记忆模块的决策制定代理,可以通过存储、混合和检索信息来改善其在不同下游任务中的训练效率和泛化能力,并进一步证明记忆微调可以增强所提出架构的适应性。
May, 2023
本研究通过提出多种不同 memory 的 Neural Turing Machines (NTM) 来改进传统线性存储的 NTM 的缺陷,实验证明新的结构有助于提高模型收敛速度和预测精度。
Oct, 2015
预训练语言模型在推理时过长的输入会迅速成为记忆信息的瓶颈。本文提出了一种简单的方法,使用记忆转换器给模型提供预先计算的记忆库,通过批判性评估定位编码应如何更新以检索关键信息,而非使用外部嵌入。我们展示了在大多数解码器层中检索外部信息的重要性,并公开了一个新的反事实长距离检索基准。实验证明,扩展心智转换器在平均性能上超过了当今的最先进水平。
Jun, 2024
该论文主要探讨利用人类记忆系统中的交叉连接假设来增强记忆增强型 Transformers 模型,并以惊奇度作为交叉连接假设模型进行实证研究,并识别该方法的局限性以指导未来的研究。
Oct, 2022
本研究主要探讨了在 Transformer 模型中添加通用记忆单元对其性能的影响,通过使用遮掩语言建模和 HotpotQA 微调任务的实验数据表明,添加通用记忆单元可以提高模型性能。
Dec, 2022
本文研究了空间感知变压器模型在新的事后记忆模式中的应用,该模式结合了时间和空间维度,提高了记忆利用效率,并在各种环境和下游任务中展示了改进的准确性。
Feb, 2024
这篇论文研究了在 Transformer 模型解码器中添加的符号工作内存的属性,该工作内存增强了机器翻译任务中模型预测的质量,并作为信息的神经符号表示,对于模型进行正确翻译至关重要。通过研究记忆内容发现,翻译文本的关键词存储在工作内存中,指向记忆内容与处理文本的相关性。此外,存储在内存中的标记和词性的多样性与机器翻译任务的复杂性相关。
Jun, 2024