记忆马赛克
本文介绍了一种新的学习模型 - 记忆网络,利用推理组件和长期记忆组件共同学习。这些模型可以用于问答型任务中,长期记忆作为动态知识库,输出为文本响应。在评估中表明记忆网络模型在问答中具有强大的推理能力。
Oct, 2014
增加 Transformer 模型的大小并不总是导致性能提升,用经验缩放定律无法解释此现象。此外,模型记忆训练样本会改善泛化能力。我们提出了一个理论框架,揭示了基于 Transformer 的语言模型的记忆过程和性能动态。我们使用关联记忆的 Hopfield 网络来模拟 Transformer 的行为,使每个 Transformer 模块能够有效进行近似最近邻搜索。基于此,我们设计了一个能量函数,类似于现代连续 Hopfield 网络中的函数,对注意力机制提供了有见地的解释。利用最大化 - 最小化技术,我们构建了一个全局能量函数,捕捉了 Transformer 的层次结构。在特定条件下,我们证明了最小可达的交叉熵损失下界约为 1。通过对不同数据规模运行 GPT-2 实验证实了我们的理论结果,以及在一个包含 2M 令牌的数据集上训练 vanilla Transformers。
May, 2024
使用 M$^2$ - Meshed Transformer with Memory for Image Captioning 的架构,改进了图像编码和语言生成步骤;通过测试,证明该架构在单模型和集成配置上达到了新的最佳状态,尤其是在描述训练集中看不见的对象时表现优异。
Dec, 2019
通过观察到关联记忆的能量函数可以被看作是概率建模的负对数似然函数,我们建立了一个桥梁,使得这两者之间的有益思想可以互相流动。在这项工作中,我们提出了基于能量的模型以适应新的上下文数据集,提出了两种新的关联记忆模型,通过关联记忆的工具,我们系统地研究了高斯内核密度估计器的记忆容量,并且研究了 transformers 中的一种实现选择,即规范化后的自注意力,在超球面上执行聚类。
Feb, 2024
大型语言模型具有存储和提取事实的能力,并且可以通过改变上下文来操纵提取事实的能力,揭示出它们可能像联想记忆模型一样行为,其中上下文中的某些令牌作为提取事实的线索。我们通过研究 transformer 如何完成此类记忆任务,对这一属性进行了数学探索,使用一个简单的单层 transformer 研究了简单的潜在概念关联问题,理论和经验都表明 transformer 使用自注意力来收集信息并使用值矩阵进行联想记忆。
Jun, 2024
这篇论文研究了在 Transformer 模型解码器中添加的符号工作内存的属性,该工作内存增强了机器翻译任务中模型预测的质量,并作为信息的神经符号表示,对于模型进行正确翻译至关重要。通过研究记忆内容发现,翻译文本的关键词存储在工作内存中,指向记忆内容与处理文本的相关性。此外,存储在内存中的标记和词性的多样性与机器翻译任务的复杂性相关。
Jun, 2024
研究了一种关联记忆模型,建立了它与深度学习中神经网络的简单对应关系。这个模型可以存储并可靠地检索超过网络神经元数量的模式,可以应用到深度学习中的高次多项式的激活函数,实现或改进手写数字字符识别等任务。
Jun, 2016
研究了基于记忆的神经网络在处理具有复杂关系的任务时的能力,提出了一种新的内存模块 RMC,它使用多头点积注意力机制来加强记忆之间的交互,达到了在多个领域的最先进结果。
Jun, 2018
本文描述了一种完全反馈的关联记忆模型,具有任意数量的层,其中一些层可以是局部连接的(卷积),以及相应的能量函数,该函数在神经元的激活动力轨迹上逐渐降低。该模型具有来自较高层的丰富反馈,以帮助较低层神经元决定它们对输入刺激的响应。
Jul, 2021
使用 Willshaw Memory 模型和 Multiple-Modality 框架实现稀疏编码,能够储存和检索大量的现实数据,并且支持多模态同步存储与检索以及缺失模式进行推理,该框架可用于其他的学习任务。
Jul, 2022