本文提出了一种基于内部工作记忆模块的决策制定代理,可以通过存储、混合和检索信息来改善其在不同下游任务中的训练效率和泛化能力,并进一步证明记忆微调可以增强所提出架构的适应性。
May, 2023
预训练语言模型在推理时过长的输入会迅速成为记忆信息的瓶颈。本文提出了一种简单的方法,使用记忆转换器给模型提供预先计算的记忆库,通过批判性评估定位编码应如何更新以检索关键信息,而非使用外部嵌入。我们展示了在大多数解码器层中检索外部信息的重要性,并公开了一个新的反事实长距离检索基准。实验证明,扩展心智转换器在平均性能上超过了当今的最先进水平。
Jun, 2024
通过引入非线性相互作用项扩增了模型的序列容量,提出了一种基于连续关联记忆的计算模型,验证了序列容量随网络规模的新的比例规律,并通过数值模拟验证了这些理论结果。此外,还引入了广义伪逆序列回忆规则,并将模型扩展到可以存储具有状态转换间隔变化的序列,提出了一种生物可信实现,与运动神经科学相关。
Jun, 2023
通过模仿人脑记忆层次结构,我们提出了分层记忆 Transformer(HMT)框架,以提高模型的长上下文处理能力,并通过在限定上下文和长上下文模型上的评估验证了其有效性。
May, 2024
本研究介绍一种基于缓存优化技术的变压器模型加速方案,通过建立基于大内存系统的注意力数据库来加速注意力计算,从而实现了平均 21%的性能提升(最高 68%),并且在推理准确性上有可忽略的损失。
Jan, 2023
该论文主要探讨利用人类记忆系统中的交叉连接假设来增强记忆增强型 Transformers 模型,并以惊奇度作为交叉连接假设模型进行实证研究,并识别该方法的局限性以指导未来的研究。
Oct, 2022
本文提出了一种名为 Rehearsal Memory (RM) 的方法,通过自监督的历史抽样式重复训练,设计了回忆和熟悉度等训练任务来提高对长序列的记忆,为了让记忆关注重要信息,设计了历史抽样器来选择有用的信息片段,通过 bAbI 任务、文本 / 视频问答和推荐等多种测试表明该方法大大提高了长序列推理的效率和精度。
Jun, 2021
本研究提出一种新的记忆增强型 Transformer 模型,该模型可在不影响对话历史信息的情况下适应长序列处理,并且在相对于其他预训练 Transformer 模型存在着更高的效率和性能。
Sep, 2022
本文提出了一种名为 “TARDIS” 的新型记忆增强神经网络模型,利用记忆构建起到过去的虫洞连接,有效地缓解了梯度消失问题,提高了学习效率,并在不同的长期依赖任务中获得了竞争性结果。
Jan, 2017
提出了一种名为 LongMem 的框架,该框架通过引入长期记忆机制,使得语言模型能够利用历史上下文信息,从而使得模型在文本生成等任务中取得了优异效果。