大型语言模型最近邻测试时间训练

May, 2023

大型语言模型最近邻测试时间训练

Test-Time Training on Nearest Neighbors for Large Language Models

Moritz Hardt, Yu Sun

TL;DR本研究使用最近邻检索方法，直接在测试时 fine-tuning 模型，明显提升了大量语言模型任务的性能。

Abstract

Many recent efforts aim to augment language models with relevant information retrieved from a database at test time. We avoid the need for prompt engineering by directly fine-tuning the model on data retrieved at test time using its standard training setup. For this purpose, we build a large-scale distributed →

language modeling test-time training nearest neighbor index text embeddings performance improvement

发现论文，激发创造

记忆化泛化：最近邻语言模型

引入了 $k$NN-LMs，该模型将预训练的神经语言模型与 $k$ 最近邻居模型线性插值。使用此方法在一个强大的 Wikitext-103 LM 中，我们实现了一个新的最先进的困惑度为 15.79，这是一个 2.9 点的提高而无需额外的训练。此外，作者还展示了这种方法在有效地扩展到更大的训练数据和实现领域自适应方面的作用，并认为最近邻搜索是在长尾系统的语言建模中一种有效的方法。

Nov, 2019

使用跨任务最近邻实现高效数据微调

本文提出了一种基于多任务数据池的语言模型训练方法，通过对少量未标记的目标任务实例进行最近邻匹配和筛选，以此选择有助于目标任务训练的数据，此方法在数据利用率、性能优化和基于少量训练样本下的效果提升方面表现良好。

Dec, 2022

论检索增强和语言模型训练的局限性

这项研究探讨了将 kNN 检索应用于 GPT-2 117M 等传统语言模型中，以提高性能，证实了通过这种方法可以降低困惑度，并解释了这一现象的潜在原因。

Nov, 2023

高效的最近邻语言模型

本文探讨了如何提高非参数神经语言模型的效率，实验表明我们的方法能够在保持性能相当的情况下提高 6 倍的推理速度，为以后开发或部署更有效的非参数神经语言模型提供指南。

Sep, 2021

Pile: 一个包含多样文本的 800GB 语言建模数据集

本研究使用 825GB 的英文文本语料库，旨在训练大规模语言模型，通过 GPT-2 和 GPT-3 的预实验发现，这些模型在处理学术写作等特定组件上表现不佳，而在训练了语料库后在所有组件上都有了显著提高。同时，我们对数据进行了深入分析，提供代码用于其构建。

Dec, 2020

非参数最近邻辅助微调神经机器翻译

研究探究了在微调阶段引入 kNN 预测的统计数据来提高基线翻译模型，发现通过引入 gating 机制，kNN 的真实概率和强化学习三种方法，相比于传统的微调，可以在四个标准机器翻译数据集上实现一致的改进，尤其于翻译语法关系或功能词时表现出更大的提升。

May, 2023