通过模仿人脑记忆层次结构,我们提出了分层记忆 Transformer(HMT)框架,以提高模型的长上下文处理能力,并通过在限定上下文和长上下文模型上的评估验证了其有效性。
May, 2024
提出了一种名为 LongMem 的框架,该框架通过引入长期记忆机制,使得语言模型能够利用历史上下文信息,从而使得模型在文本生成等任务中取得了优异效果。
Jun, 2023
本文研究了如何利用一种轻量级的缓存神经网络来存储最近的隐藏层表示作为翻译历史,基于从记忆中检索出的翻译历史更新生成单词的概率分布,从而使得神经机器翻译模型具有动态适应能力,并且在计算成本方面影响极小。
Nov, 2017
本文提出了历史感知的分层 Transformer - 多轮开放域对话系统,能够利用历史交互信息与时下言语背景生成基于上下文且相关性强的对话回应,并在大规模多轮对话数据集上取得了优异的表现结果。
Feb, 2023
本文介绍了一种名为 HOMER 的新的无需训练的方案,它使用分而治之的算法将长输入划分为可管理的块,并采用逐层合并的分层策略,以解决大语言模型在上下文限制方面的问题,同时还提出了一种优化的计算顺序,使其对输入长度的内存需求呈对数尺度变化,从而提高了性能和内存效率。
Apr, 2024
本文提出一种扩展神经网络语言模型以适应最近历史的方法,将过去的隐藏活性作为记忆保存,并通过与当前隐藏激活的点积来访问它们,此机制非常高效,能够扩展至非常大的存储空间。同时,作者指出了神经网络外部存储与基于计数的语言模型中缓存模型之间的联系,并在几个语言模型数据集上证明了他们的方法比最近的记忆增强网络性能显着优越。
Dec, 2016
研究历史语料库数据对语言模型 BERT 训练的影响,从而提出一种预先训练的基于 HistBERT 的语言模型,并比较它与原始 BERT 在单词相似度和语义转化分析方面的表现,该工作强调,上下文语言嵌入在历史语言分析中的效果取决于输入文本的时态特征,并应谨慎应用此方法来研究历史语义变化。
Feb, 2022
提出了一种新的学习范式 —— 提示增强的上下文学习(Hint-enhanced In-Context Learning,HICL),通过从示范中提取与查询相关的知识,以更明确的方式提示大型语言模型(LLM),用于开放域问答,从而提高性能。
Nov, 2023
本文介绍了一种名为 LaMemo 的模型,它通过增量地注意右侧的标记,并与旧的内存状态插值,以维护历史上的长期信息,它将双向注意力和段重复与附加计算开销相结合,只与内存长度成线性比例关系。实验表明 LaMemo 在广泛使用的语言建模基准测试中优于其他不同类型的内存装备。
Apr, 2022
大型语言模型的上下文能力有限,通过使用分层聚合树内存结构可以在长对话中进行推理,提高对话的连贯性和摘要质量,同时避免了参数呈指数级增长。
Jun, 2024