开放词汇在线语言建模的无限缓存模型

NIPSNov, 2017

开放词汇在线语言建模的无限缓存模型

Unbounded cache model for online language modeling with open vocabulary

Edouard Grave, Moustapha Cisse, Armand Joulin

TL;DR提出了一种扩展连续缓存模型的方法，通过使用大规模的非参数内存组件，存储过去观察到的所有隐藏激活，并利用近似最近邻搜索和量化算法，高效地存储和搜索数百万的表示，显著提高了预训练语言模型在新分布上的困惑度，并且可以有效地扩展到比以前提出的本地缓存模型更大的上下文范围。

Abstract

Recently, continuous cache models were proposed as extensions to recurrent neural network language models, to adapt their predictions to local changes in the data distribution. These models only capture the local contex

continuous cache models recurrent neural network language models local context non-parametric memory component pre-trained language models

发现论文，激发创造

使用连续缓存来改进神经语言模型

本文提出一种扩展神经网络语言模型以适应最近历史的方法，将过去的隐藏活性作为记忆保存，并通过与当前隐藏激活的点积来访问它们，此机制非常高效，能够扩展至非常大的存储空间。同时，作者指出了神经网络外部存储与基于计数的语言模型中缓存模型之间的联系，并在几个语言模型数据集上证明了他们的方法比最近的记忆增强网络性能显着优越。

Dec, 2016

使用连续缓存学习记忆翻译历史

本文研究了如何利用一种轻量级的缓存神经网络来存储最近的隐藏层表示作为翻译历史，基于从记忆中检索出的翻译历史更新生成单词的概率分布，从而使得神经机器翻译模型具有动态适应能力，并且在计算成本方面影响极小。

Nov, 2017

神经缓存：长距离语言建模的高效向量检索

介绍了一种名为 Neurocache 的方法，它使用外部向量缓存扩展了大型语言模型的有效上下文大小，通过存储过去的状态并利用高效的 k 最近邻算法检索相关的过去状态并将其纳入注意力过程中，进而提高语言建模和下游任务准确性。

Jul, 2024

记忆 Transformer

本文介绍了一种使用内部储存器实现直接读取并记忆新数据的语言模型，在多个基准测试和任务中展示了近似 kNN 查找技术，着重测试了代码和数学等领域，并证明了随着储存器大小的增加，性能将稳步提高。

Mar, 2022

探索语言建模的极限

本文研究了递归神经网络在大规模语言建模中的最新进展和应用，对语料库和词汇量的大小和语言的复杂性和长期结构等问题进行了探讨，并在 One Billion Word Benchmark 上进行了详尽的研究，最佳单一模型将习惯度从 51.3 降低到 30.0，而模型集成则创下了 41.0 到 23.7 的新纪录，在总结中，研究结果可供自然语言处理和机器学习界进一步研究和提高。

Feb, 2016

自适应半参数语言模型

该研究提出了一种结合大型参数神经网络和非参数周期性记忆组件的语言模型，通过缓存本地隐藏状态和检索一组最近的邻居标记来使用扩展的短期上下文和全局长期记忆，并设计门控函数来自适应地组合多个信息源来做出预测。

Feb, 2021

增强语言模型的长期记忆

提出了一种名为 LongMem 的框架，该框架通过引入长期记忆机制，使得语言模型能够利用历史上下文信息，从而使得模型在文本生成等任务中取得了优异效果。

Jun, 2023

在开放词汇神经语言建模中学习创造和重复使用单词

使用具有缓存机制的分层 LSTM 语言模型在多种语言维基百科文章上进行开放词汇量语言建模，通过字符级别的生成实现不同语言之间的数据共享，进而可以有效解决固定词汇量模型中常见的新词问题。

Apr, 2017

面向扩展语言模型至 128K 上下文的数据工程

本研究探讨使用持续预训练重现将语言模型的上下文长度扩展到 128K，重点关注数据工程。我们假设长篇背景建模，特别是 “能够在任意输入位置利用信息” 的能力在大规模预训练中已经获得，而且这种能力可以通过对适当数据混合进行轻量级持续预训练来延伸到比训练中看到的上下文更长的情况（例如，从 4K 延伸到 128K）。我们研究了持续预训练的 “数量” 和 “质量”：（1）对于数量，我们表明 5 亿到 50 亿个标记足以使模型能够检索到 128K 上下文中的任何信息；（2）对于质量，我们的结果同样强调了 “领域平衡” 和 “长度上采样”。具体来说，我们发现像书籍这样的特定领域上的长数据简单上采样，这是现有工作的常见做法，会得到次优性能，而平衡的领域混合是重要的。我们证明使用 1B-50B 个标记的数据对整个模型进行持续预训练是将语言模型的上下文长度扩展到 128K 的一种有效和经济的策略。我们的方法胜过强大的开源长篇模型，并缩小了与 GPT-4 128K 等前沿模型之间的差距。

Feb, 2024

语音识别的长跨度语言建模

本文探索多句子语境下神经语言模型的应用，并介绍结合了注意力机制和 LSTM 的新型模型在语音识别和长跨度语言模型方面的实验结果。

Nov, 2019