处理长篇文档的全局记忆转换器
我们提出了一种两阶段方法 GEMFormer,首先将相关信息收集到整个文档的内存中,然后与局部上下文相结合来解决多跳问答任务。结果表明,将预训练模型进行微调,使用内存增强输入,包括一些最确定的全局元素,相对于基线在三个多跳问答数据集上提高了模型的性能。我们还发现,全局显式记忆包含了正确答案所需的支持事实的信息。
Nov, 2023
预训练语言模型在推理时过长的输入会迅速成为记忆信息的瓶颈。本文提出了一种简单的方法,使用记忆转换器给模型提供预先计算的记忆库,通过批判性评估定位编码应如何更新以检索关键信息,而非使用外部嵌入。我们展示了在大多数解码器层中检索外部信息的重要性,并公开了一个新的反事实长距离检索基准。实验证明,扩展心智转换器在平均性能上超过了当今的最先进水平。
Jun, 2024
我们提出了一种新颖的两阶段训练机制和一种新颖的正则化技术,以提高基于内存的 Transformer 的训练效率,该模型通常用于解决长程背景问题。我们在字符级语言模型任务上展示了我们的结果模型 Skip Cross-head TransformerXL,在相似参数下优于基线模型,并在词级语言建模任务上优于基线模型,参数减少近 20%。我们提出的方法不需要额外的内存。我们还展示了我们在 BERT 上的正则化机制的有效性,该机制在多个 GLUE 任务中表现出相似性能,并降低了标准差约 30%。
Nov, 2023
提出了一种称为 TRAining-free Memory Selection (TRAMS) 的插拔式策略,通过一个简单的评价指标选择参与注意力计算的令牌,从而改善长程语言建模的挑战,无需额外训练或添加参数,通过在 word-level benchmark (WikiText-103) 和 character-level benchmark (enwik8) 上的测试取得了改进的结果。
Oct, 2023
该论文主要探讨利用人类记忆系统中的交叉连接假设来增强记忆增强型 Transformers 模型,并以惊奇度作为交叉连接假设模型进行实证研究,并识别该方法的局限性以指导未来的研究。
Oct, 2022
通过模仿人脑记忆层次结构,我们提出了分层记忆 Transformer(HMT)框架,以提高模型的长上下文处理能力,并通过在限定上下文和长上下文模型上的评估验证了其有效性。
May, 2024
本论文提出在稀疏 Transformer 区块之外增加一个基于全局记忆的密集式注意力机制,以大大提高模型处理长文档时的效率和性能。
Jun, 2020
本文提出了一种基于内部工作记忆模块的决策制定代理,可以通过存储、混合和检索信息来改善其在不同下游任务中的训练效率和泛化能力,并进一步证明记忆微调可以增强所提出架构的适应性。
May, 2023
本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器,成功地应用于流式同声传译任务,可以处理大量连续输入,相较于单向掩码 Transformer 模型,具有更好的延迟和质量平衡。
Oct, 2020
本研究提出一种新的记忆增强型 Transformer 模型,该模型可在不影响对话历史信息的情况下适应长序列处理,并且在相对于其他预训练 Transformer 模型存在着更高的效率和性能。
Sep, 2022