社交媒体数据选择的生成式去重
研究发现现有的语言模型数据集包含大量近似重复的示例和长的重复子串。因此,在这些数据集上训练的语言模型的超过 1%的非提示输出是直接从训练数据复制的。我们开发了两个工具,使我们能够定位训练数据集中的冗余数据,以便通过去重来训练模型,减少内存化文本的发生。这也减少了训练和测试重叠,从而提高了模型的准确性。我们在指定的 https 网址上发布我们的工作和代码。
Jul, 2021
该研究显示,大型语言模型在面对隐私攻击时,其攻击的成功与常用网络爬取的训练集中的重复数据有很大关系,而消除重复数据的方法可以显著提高语言模型的隐私安全性。
Feb, 2022
使用历史新闻电线的独特时效性创建了一个包含 27,210 个文件,122,876 个正重复对的数据集,评估了区分训练的双编码器和组合双编码器和交叉编码器的范围,结果表明神经方法显着优于哈希和 N-gram 重叠,并且 bi-encoder 在单个 GPU 卡上的可伸缩性很高。
Oct, 2022
在大数据时代,数据质量问题变得越来越突出。我们提出了一种基于主动学习的预训练去重模型,该模型是首个将主动学习应用于语义级别去重问题的工作。实验结果表明,我们的模型在去重数据识别方面优于之前的最先进技术,基准数据集上的召回率得到了 28% 的提升。
Jul, 2023
通过数据集去重技术,以及针对包含社会偏见的图像 - 描述数据集的剪枝技术,本研究评估去重对训练模型中偏见的影响,并提出了一种易于实施的修改后的 SemDeDup 算法,以减少这些负面影响,实验证明我们提出的 FairDeDup 算法在 FairFace 和 FACET 数据集上提供了更好的公平性指标,并保持了 CLIP benchmark 的零 - shot 性能。
Apr, 2024
使用最新的大型语言模型和生成式人工智能技术,在常见基准数据集上使用我们提出的方法,能够将数据去重的准确率从使用自然语言处理技术的 30% 提高到近 60%。
Jun, 2024
使用扩展语言模型和双重融合增强方法,本研究提出的方法可以显著减少扩散模型的复制行为,仅相比原始的扩散模型减少了 43.5%,同时保持了生成图像的多样性和质量。
Sep, 2023
通过利用大规模的真实临床数据集,本研究首先对常见写作习惯和临床相关性导致的冗余文本进行了细粒度的描述,接着证明了去重临床文本可以帮助临床语言模型以更高效的方式编码更少的冗余信息,并且通过基于提示的学习不会对分类任务造成伤害。
Sep, 2023
通过利用大规模语言模型如 ChatGPT,我们探索了基于提示的数据增强方法,用于产生合成的平行语料库,比较了三种不同提示的方法,并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本,与后向翻译等其他增强方法相比,提高了未增强基线的 0.68 BLEU 分数。
Jul, 2023