本文探讨了如何提高非参数神经语言模型的效率,实验表明我们的方法能够在保持性能相当的情况下提高 6 倍的推理速度,为以后开发或部署更有效的非参数神经语言模型提供指南。
Sep, 2021
引入了 $k$NN-LMs,该模型将预训练的神经语言模型与 $k$ 最近邻居模型线性插值。使用此方法在一个强大的 Wikitext-103 LM 中,我们实现了一个新的最先进的困惑度为 15.79,这是一个 2.9 点的提高而无需额外的训练。此外,作者还展示了这种方法在有效地扩展到更大的训练数据和实现领域自适应方面的作用,并认为最近邻搜索是在长尾系统的语言建模中一种有效的方法。
Nov, 2019
本文探究检索增强语言模型及 k - 最近邻语言模型相较于传统参数化语言模型进行下一个单词预测时为何表现更佳的原因,并发现使用不同输入表示、近似最近邻搜索、以及 kNN 分布的 softmax 温度是关键因素,进而将这些启示融入传统语言模型的模型架构和训练方法来提升其表现。
Jan, 2023
研究了 k-nearest neighbor LM 以及 kNN-Prompt 模型在少数样本和零样本任务准确度上的性能,发现其对于扩展任务特定的模糊单词十分有效,且具有在领域适应中快速提高准确度的优势。
May, 2022
研究了基于检索增强的语言模型中 $k$NN-LM 中检索文本的词汇和语义匹配对于性能的影响,并通过使用检索结果质量确定插值系数的新表述,成功地提高了英文语言建模数据集 Wikitext-103 和 PG-19 中的困惑度近 4%。
Oct, 2022
本文提出了一种新的基于分块的 $k$NN-MT 模型,在机器翻译领域中具有显著的速度优势,同时实现了对域适应能力的支持。
本论文探讨了如何利用适配器和重排序模块等方法改进半参数最近邻语言模型($k$NN-LMs)在新领域的适用性,实验证明结合多种方法后平均可以提高 17.1%的困惑度。
Nov, 2022
通过猜测的检索和批量验证,RaLMSpec 提供了对迭代式 RaLM 的加速,保持了相同的模型输出。在多个评估上,RaLMSpec 相对于基准模型可以实现 1.75-2.39 倍的加速比。
Jan, 2024
研究插值检索增强语言模型的生成质量,插值检索增强的语言模型通过使用给定前缀的最相关检索进行插值来预测下一个词的分布,发现这种方法对于母猪鼻子的下一个词比较准确,但对于开放式的文本生成质量并没有相应的改善,同时发现对于模型生成的文本作为查询时,检索分布的熵增加较快,不够可靠。希望推动未来在检索增强语言模型的解码算法和插值策略方面的改进。
May, 2023
研究探究了在微调阶段引入 kNN 预测的统计数据来提高基线翻译模型,发现通过引入 gating 机制,kNN 的真实概率和强化学习三种方法,相比于传统的微调,可以在四个标准机器翻译数据集上实现一致的改进,尤其于翻译语法关系或功能词时表现出更大的提升。