使用随机矩阵理论将 Transformer 扩展到 1M 个标记及以上
本文提出并研究了一种记忆增强的分段循环 Transformer 模型 (RMT),通过通过加入特殊的记忆 tokens 实现,该模型能够存储和处理局部和全局信息,传递长序列片段之间的信息,具有学习长期依赖性和内存处理方面的潜力.
Jul, 2022
本论文提出一种新方法,使用地标标记来代表输入的每个块,并通过训练使注意力选择相关块,从而使我们可以访问完整的上下文并保留随机访问灵活性。 该方法与专用数据结构和系统的内存层次结构无缝集成,可以处理任意长度的上下文长度。
May, 2023
介绍了一种新的循环记忆单元来加强 Transformer 框架下文档级机器翻译的一致性,提出了一种两阶段的训练策略,实现了在三个流行数据集上的优异表现,并在 TED 和 News 数据集上实现了比过去最好结果更好的结果。
May, 2022
通过模仿人脑记忆层次结构,我们提出了分层记忆 Transformer(HMT)框架,以提高模型的长上下文处理能力,并通过在限定上下文和长上下文模型上的评估验证了其有效性。
May, 2024
本文提出了递归记忆决策变换器(RMDT),使用递归记忆机制用于强化学习问题,旨在改善大规模转换器模型在离线强化学习任务中的表现,实验证明,其性能明显优于没有递归记忆机制的同类模型。
Jun, 2023
本研究论文通过引入 BABILong 基准来评估模型在提取和处理长文本中分布式事实的能力,发现传统方法只适用于长度为 10^4 的序列,而使用细调 GPT-2 与循环记忆增强可以处理长度为 10^7 元素的任务,这一成就大大提高了长序列处理能力。
Feb, 2024
提出了一种称为 TRAining-free Memory Selection (TRAMS) 的插拔式策略,通过一个简单的评价指标选择参与注意力计算的令牌,从而改善长程语言建模的挑战,无需额外训练或添加参数,通过在 word-level benchmark (WikiText-103) 和 character-level benchmark (enwik8) 上的测试取得了改进的结果。
Oct, 2023
为了降低长上下文 Transformer 模型的成本并解决效率挑战,本研究提出了一种并行编程框架,用于定量分析在 GPU 高带宽内存限制下为多个长上下文请求提供服务时所面临的效率挑战,并识别出减少 1M 上下文推断成本的可能方向。
May, 2024
该研究分析了两个能够接受高达 8K Token 的长文本转换器语言模型,发现将长距离上下文提供给这些模型只会在少数 Token 上提高其预测能力(例如可以从远处文本中复制的 Token),对于句子级别的预测任务没有任何帮助;并且长范围上下文对文学小说的帮助最大。
Sep, 2021
该研究介绍了一种有效的方法,用于将基于 Transformer 的大型语言模型扩展到无限长的输入,同时保证有界的内存和计算。我们提出的方法的关键组成部分是一种称为 Infini-attention 的新的注意力技术,它将压缩性记忆融入到传统的注意力机制中,并在单个 Transformer 块中集成了被屏蔽的局部注意力和长期线性注意力机制。我们在长文本语言建模、1M 序列长度密钥上下文块检索和 500K 长度的书籍摘要任务上展示了我们方法的有效性,使用 1B 和 8B 规模的大型语言模型。我们的方法引入了最小化的有界内存参数,并实现了 LLMs 的快速流式推理。
Apr, 2024