不远不近：通过 MiniMax 实现高样本效率的最近邻数据增强

ACLMay, 2021

不远不近：通过 MiniMax 实现高样本效率的最近邻数据增强

Not Far Away, Not So Close: Sample Efficient Nearest Neighbour Data Augmentation via MiniMax

Ehsan Kamalloo, Mehdi Rezagholizadeh, Peyman Passban, Ali Ghodsi

TL;DRMinimax-kNN 是一种高效的数据增强策略，基于知识蒸馏的半监督学习方法来训练模型，并且利用 KL-divergence 选择最有效的样本，以实现最大限度地覆盖输入空间中具有最大损失值的区域。该方法在多个文本分类任务中得到了验证，明显优于强基线模型，所需增强样本更少，计算量更小。

Abstract

In natural language processing (NLP), finding data augmentation techniques that can produce high-quality human-interpretable examples has always been challenging. Recently, leveraging kNN such that augmented exam

natural language processing data augmentation minimax-knn knowledge distillation text classification

发现论文，激发创造

数据增强对知识蒸馏的影响

本研究发现知识蒸馏与微调在数据增强方面的偏好不同，鼓励学者探索针对知识蒸馏的数据增强方法，且合适的语义漂移度（例如，更改 30% 的令牌通常是知识蒸馏的最佳选项），并发现对于小型数据集，较大的语义漂移度更加适合，直至出现超出分布的问题。

May, 2023

神经机器翻译最近邻知识蒸馏

本文提出一种改进机器翻译模型的方法，即将 NN search 前置，并通过最近邻知识蒸馏（NN-KD）训练基本 NMT 模型直接学习 NN 知识，可以更好地解决机器翻译中的过度纠正问题，并在保持训练和解码速度不变的情况下，实现了比 NN-MT 等现有方法更好的结果。

May, 2022

记忆化泛化：最近邻语言模型

引入了 $k$NN-LMs，该模型将预训练的神经语言模型与 $k$ 最近邻居模型线性插值。使用此方法在一个强大的 Wikitext-103 LM 中，我们实现了一个新的最先进的困惑度为 15.79，这是一个 2.9 点的提高而无需额外的训练。此外，作者还展示了这种方法在有效地扩展到更大的训练数据和实现领域自适应方面的作用，并认为最近邻搜索是在长尾系统的语言建模中一种有效的方法。

Nov, 2019

通过最近邻校准提高语言模型的少样本性能

本文提出了一种基于最近邻校准框架的预训练语言模型（PLMs）的上下文学习方法，该方法获得了显著的改进，并在某些情感分析任务中实现了与基于调优的方法相当的性能。

Dec, 2022

MixKD：大规模语言模型高效蒸馏

提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD，大幅度降低了一些实践性问题的影响，提升了大规模语言模型的泛化能力，实现了比标准 KD 培训更好的性能表现，能用于低资源平台上的应用。

Nov, 2020

带检索的分类方法及其解耦表示

本文提出了一种混合粒度的中文 BERT 模型（MigBERT），通过同时考虑字符和词，设计了学习字符和单词级表示的目标函数，在各种中文 NLP 任务上获得了新的 SOTA 性能，实验结果表明，单词语义比字符更丰富，而 MigBERT 也适用于日语。

Mar, 2023

论检索增强和语言模型训练的局限性

这项研究探讨了将 kNN 检索应用于 GPT-2 117M 等传统语言模型中，以提高性能，证实了通过这种方法可以降低困惑度，并解释了这一现象的潜在原因。

Nov, 2023

非参数最近邻辅助微调神经机器翻译

研究探究了在微调阶段引入 kNN 预测的统计数据来提高基线翻译模型，发现通过引入 gating 机制，kNN 的真实概率和强化学习三种方法，相比于传统的微调，可以在四个标准机器翻译数据集上实现一致的改进，尤其于翻译语法关系或功能词时表现出更大的提升。

May, 2023

本地可解释的机器学习和人工智能：初步结果和未来方向

该论文介绍了如何结合 k 最近邻算法与信息论来解决机器学习模型复杂度与可解释性之间的矛盾，以实现全面审计的机器学习和人工智能技术

Jan, 2019

利用 k 近邻表示解释和改善模型行为

使用 kNN 表示法来解释 NLP 模型的预测结果，发现其除了具有解释性外，还能揭示学习到的虚假关联，发现存在错误标记的例子，并提高模型的性能和抵御对抗攻击的能力。

Oct, 2020