数据去重对语言模型的训练有益

ACLJul, 2021

Deduplicating Training Data Makes Language Models Better

Katherine Lee, Daphne Ippolito, Andrew Nystrom, Chiyuan Zhang, Douglas Eck...

TL;DR研究发现现有的语言模型数据集包含大量近似重复的示例和长的重复子串。因此，在这些数据集上训练的语言模型的超过 1％的非提示输出是直接从训练数据复制的。我们开发了两个工具，使我们能够定位训练数据集中的冗余数据，以便通过去重来训练模型，减少内存化文本的发生。这也减少了训练和测试重叠，从而提高了模型的准确性。我们在指定的 https 网址上发布我们的工作和代码。

Abstract

We find that existing language modeling datasets contain many near-duplicate examples and long repetitive substrings. As a result, over 1% of the unprompted output of language models trained on these

language modeling datasets deduplication train-test overlap accuracy

发现论文，激发创造

去重训练数据减缓语言模型的隐私风险

该研究显示，大型语言模型在面对隐私攻击时，其攻击的成功与常用网络爬取的训练集中的重复数据有很大关系，而消除重复数据的方法可以显著提高语言模型的隐私安全性。

Feb, 2022

重复数据学习的可解释性和缩放定律

本文研究大型语言模型中反复数据对性能的影响机理，并发现了一个强烈的双下降现象，即重复数据可能导致测试损失在训练中途上升。实验表明，反复数据对模型的性能造成了明显的损害，可能会导致模型从泛化到记忆出现转移。

May, 2022

社交媒体数据选择的生成式去重

使用生成复制技术解决社交媒体数据中存在的冗余问题，提高语言理解性能并节省训练时间。

Jan, 2024

D4: 通过文档去重和多样化提升 LLM 预训练

通过预先训练模型的嵌入，精心选择数据可加速训练并提高自然语言处理任务的下游准确性，进而对语言模型的预训练方法和性能产生质疑，并展示了在超大规模模型上持续改进模型的可能路径。

Aug, 2023

临床文本去重实践：高效预训练与改进临床任务

通过利用大规模的真实临床数据集，本研究首先对常见写作习惯和临床相关性导致的冗余文本进行了细粒度的描述，接着证明了去重临床文本可以帮助临床语言模型以更高效的方式编码更少的冗余信息，并且通过基于提示的学习不会对分类任务造成伤害。

Sep, 2023

通过语义去重实现大规模数据高效学习

使用预训练模型中的嵌入来识别和删除语义重复项 SemDeDup，可以在保留性能和提高超出分布的模型表现的同时，删除数据中约 50％的语义重复项。

Mar, 2023

关于语言模型中（近似）重复的子词的影响

研究论文中，我们主要探讨了词元化对语言模型训练效率的影响，发现在完全重复设置下，语言模型训练需要大约多出 17% 的数据量。此外，研究还发现自然存在的近义词对语言模型的性能产生了负面影响，限制了表现的潜力。

Apr, 2024

机器学习模型中的代码重复对系统的负面影响

本文探究代码重复对机器学习模型的影响，并提出了避免这一问题的最佳实践和工具。

Dec, 2018

使用训练 / 测试去重的 Java 方法语言模型

本文提出了一种用于 Java 源代码的语言模型研究工具包，包括开放可搜索的训练集、含有不同程度去重的测试集、去重新示例的基础设施以及适用于相对较小预算的设备执行的实现平台，并使用类似于 GPT2 的架构和巨大的训练集进行训练。

May, 2023

基于主动学习的预训练数据去重模型

在大数据时代，数据质量问题变得越来越突出。我们提出了一种基于主动学习的预训练去重模型，该模型是首个将主动学习应用于语义级别去重问题的工作。实验结果表明，我们的模型在去重数据识别方面优于之前的最先进技术，基准数据集上的召回率得到了 28% 的提升。

Jul, 2023