大型语言模型最近邻测试时间训练
引入了 $k$NN-LMs,该模型将预训练的神经语言模型与 $k$ 最近邻居模型线性插值。使用此方法在一个强大的 Wikitext-103 LM 中,我们实现了一个新的最先进的困惑度为 15.79,这是一个 2.9 点的提高而无需额外的训练。此外,作者还展示了这种方法在有效地扩展到更大的训练数据和实现领域自适应方面的作用,并认为最近邻搜索是在长尾系统的语言建模中一种有效的方法。
Nov, 2019
本文提出了一种基于多任务数据池的语言模型训练方法,通过对少量未标记的目标任务实例进行最近邻匹配和筛选,以此选择有助于目标任务训练的数据,此方法在数据利用率、性能优化和基于少量训练样本下的效果提升方面表现良好。
Dec, 2022
这项研究探讨了将 kNN 检索应用于 GPT-2 117M 等传统语言模型中,以提高性能,证实了通过这种方法可以降低困惑度,并解释了这一现象的潜在原因。
Nov, 2023
本文探讨了如何提高非参数神经语言模型的效率,实验表明我们的方法能够在保持性能相当的情况下提高 6 倍的推理速度,为以后开发或部署更有效的非参数神经语言模型提供指南。
Sep, 2021
本研究使用 825GB 的英文文本语料库,旨在训练大规模语言模型,通过 GPT-2 和 GPT-3 的预实验发现,这些模型在处理学术写作等特定组件上表现不佳,而在训练了语料库后在所有组件上都有了显著提高。同时,我们对数据进行了深入分析,提供代码用于其构建。
Dec, 2020
研究探究了在微调阶段引入 kNN 预测的统计数据来提高基线翻译模型,发现通过引入 gating 机制,kNN 的真实概率和强化学习三种方法,相比于传统的微调,可以在四个标准机器翻译数据集上实现一致的改进,尤其于翻译语法关系或功能词时表现出更大的提升。
May, 2023
本研究提出 $k$- 最近邻机器翻译方法,基于神经翻译模型的表示进行相似性搜索,不需要额外训练,适用于广泛的场景,并且可以通过使用特定于域的数据存储库来适应不同的领域,显著提高翻译性能。
Oct, 2020
本文提出了一种基于最近邻校准框架的预训练语言模型(PLMs)的上下文学习方法,该方法获得了显著的改进,并在某些情感分析任务中实现了与基于调优的方法相当的性能。
Dec, 2022
通过提出的多层感知器神经网络与 kNN-MT 系统结合,成功减少了冗余的检索操作,并显著降低了 kNN 检索的开销,虽然会导致轻微的翻译质量下降,但该方法可以与所有现有的 kNN-MT 系统配合使用。
Dec, 2023
通过使用多种语言的表示方法结合成一个数据存储,我们可以在低资源翻译质量上获得显著改进(高达 + 3.6 BLEU),同时对高资源翻译质量也有所提高(高达 + 0.5 BLEU)。我们的实验证实了通过使用语言相似性进行数据存储创建,可以实现四分之一大小的多语言数据存储,从而提高了翻译速度(提升了 5.3 倍).
Oct, 2023