社交媒体数据选择的生成式去重

Jan, 2024

Generative Deduplication For Socia Media Data Selection

Xianming Li, Jing Li

TL;DR使用生成复制技术解决社交媒体数据中存在的冗余问题，提高语言理解性能并节省训练时间。

Abstract

social media data is plagued by the redundancy problem caused by its noisy nature, leading to increased training time and model bias. To address this issue, we propose a novel approach called →

social media data generative duplication duplicate text model bias language understanding

发现论文，激发创造

数据去重对语言模型的训练有益

研究发现现有的语言模型数据集包含大量近似重复的示例和长的重复子串。因此，在这些数据集上训练的语言模型的超过 1％的非提示输出是直接从训练数据复制的。我们开发了两个工具，使我们能够定位训练数据集中的冗余数据，以便通过去重来训练模型，减少内存化文本的发生。这也减少了训练和测试重叠，从而提高了模型的准确性。我们在指定的 https 网址上发布我们的工作和代码。

Jul, 2021

去重训练数据减缓语言模型的隐私风险

该研究显示，大型语言模型在面对隐私攻击时，其攻击的成功与常用网络爬取的训练集中的重复数据有很大关系，而消除重复数据的方法可以显著提高语言模型的隐私安全性。

Feb, 2022

面向规模化的抗噪去重

使用历史新闻电线的独特时效性创建了一个包含 27,210 个文件，122,876 个正重复对的数据集，评估了区分训练的双编码器和组合双编码器和交叉编码器的范围，结果表明神经方法显着优于哈希和 N-gram 重叠，并且 bi-encoder 在单个 GPU 卡上的可伸缩性很高。

Oct, 2022

基于主动学习的预训练数据去重模型

在大数据时代，数据质量问题变得越来越突出。我们提出了一种基于主动学习的预训练去重模型，该模型是首个将主动学习应用于语义级别去重问题的工作。实验结果表明，我们的模型在去重数据识别方面优于之前的最先进技术，基准数据集上的召回率得到了 28% 的提升。

Jul, 2023

通过语义去重实现大规模数据高效学习

使用预训练模型中的嵌入来识别和删除语义重复项 SemDeDup，可以在保留性能和提高超出分布的模型表现的同时，删除数据中约 50％的语义重复项。

Mar, 2023

公平去重：在语义数据集去重中检测和减轻视觉语言公平性差异

通过数据集去重技术，以及针对包含社会偏见的图像 - 描述数据集的剪枝技术，本研究评估去重对训练模型中偏见的影响，并提出了一种易于实施的修改后的 SemDeDup 算法，以减少这些负面影响，实验证明我们提出的 FairDeDup 算法在 FairFace 和 FACET 数据集上提供了更好的公平性指标，并保持了 CLIP benchmark 的零 - shot 性能。

Apr, 2024

使用 GenAI 进行重复检测

使用最新的大型语言模型和生成式人工智能技术，在常见基准数据集上使用我们提出的方法，能够将数据去重的准确率从使用自然语言处理技术的 30% 提高到近 60%。

Jun, 2024

通过广义字幕和双重融合增强降低扩散模型中的复制和复制行为

使用扩展语言模型和双重融合增强方法，本研究提出的方法可以显著减少扩散模型的复制行为，仅相比原始的扩散模型减少了 43.5%，同时保持了生成图像的多样性和质量。

Sep, 2023

临床文本去重实践：高效预训练与改进临床任务

通过利用大规模的真实临床数据集，本研究首先对常见写作习惯和临床相关性导致的冗余文本进行了细粒度的描述，接着证明了去重临床文本可以帮助临床语言模型以更高效的方式编码更少的冗余信息，并且通过基于提示的学习不会对分类任务造成伤害。

Sep, 2023

利用生成式语言模型进行神经机器翻译的数据增强

通过利用大规模语言模型如 ChatGPT，我们探索了基于提示的数据增强方法，用于产生合成的平行语料库，比较了三种不同提示的方法，并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本，与后向翻译等其他增强方法相比，提高了未增强基线的 0.68 BLEU 分数。

Jul, 2023