利用记忆增强训练语言模型

EMNLPMay, 2022

Training Language Models with Memory Augmentation

Zexuan Zhong, Tao Lei, Danqi Chen

TL;DR提出了一种新的训练方法 TRIME，用于训练具有记忆增强的语言模型，该方法使用直接获取批量样例作为可访问内存的训练目标，并在训练集上构建大型记忆集以帮助提高模型性能。

Abstract

Recent work has improved language models (LMs) remarkably by equipping them with a non-parametric memory component. However, most existing approaches only introduce mem-ories at testing time or represent them using a separately trained encoder, resulting in suboptimal training of the l

language models memory augmentation training approach data batching neural architectures

发现论文，激发创造

使用翻译记忆增强大型语言模型翻译器

利用翻译记忆作为提示是一种有前途的机器翻译模型上下文学习方法，本文通过使用大型语言模型进行提示，发现 LLM 的‘理解’提示的能力确实有助于更好地利用 TMs，并通过实验证明，使用高质量的 TM 提示可以大大改善预先训练的 LLM 翻译器的结果，甚至可以与最新状态下大规模领域内双语数据和针对下游任务进行调整的 NMT 系统的结果相媲美。

May, 2023

TRAMS：无需训练的长程语言模型记忆选择

提出了一种称为 TRAining-free Memory Selection (TRAMS) 的插拔式策略，通过一个简单的评价指标选择参与注意力计算的令牌，从而改善长程语言建模的挑战，无需额外训练或添加参数，通过在 word-level benchmark (WikiText-103) 和 character-level benchmark (enwik8) 上的测试取得了改进的结果。

Oct, 2023

增强语言模型的长期记忆

提出了一种名为 LongMem 的框架，该框架通过引入长期记忆机制，使得语言模型能够利用历史上下文信息，从而使得模型在文本生成等任务中取得了优异效果。

Jun, 2023

基于单语翻译记忆的神经机器翻译

本研究提出了一种新的框架，使用单语记忆并以跨语言方式进行可学习的记忆检索，以增强神经机器翻译性能，并展示其在较低资源和领域适应情况下的有效性。

May, 2021

使用翻译记忆推进神经机器翻译

本文介绍了一种将翻译记忆集成到神经机器翻译系统中的简单有效方法，并在多个数据集上获得实验性能显著优于强基线模型的结果。

Jan, 2023

MEMORYLLM: 迈向自我可更新的大型语言模型

MEMORYLLM 是一个自我更新且具有信息记忆能力的模型，它通过在 transformer 的潜在空间中引入固定大小的内存池，能够有效地整合新知识并保持长期信息记录能力，同时维持操作性完整性。