使用 GenAI 进行重复检测
本文提出了一种基于自然语言处理技术的方法,考虑 Bug 报告的结构化和非结构化属性,例如概述、描述、严重性、影响产品、平台和类别等信息,利用自定义数据转换器、深度神经网络和非泛化机器学习方法检索现有的相同 Bug 报告,并在大量数据来源的众多实验中展示了所提出的解决方案在召回率为 5 时的高检索准确性为 70%。
Dec, 2022
使用历史新闻电线的独特时效性创建了一个包含 27,210 个文件,122,876 个正重复对的数据集,评估了区分训练的双编码器和组合双编码器和交叉编码器的范围,结果表明神经方法显着优于哈希和 N-gram 重叠,并且 bi-encoder 在单个 GPU 卡上的可伸缩性很高。
Oct, 2022
通过预定义一组与任务相关的关系,我们的方法将重点从纯粹识别语义相似性转移到理解并定义实体之间的 “关系”,以解决匹配中的模糊性,从而使分析员能够更有效地浏览从完全匹配到概念相关实体的相似性范围。
Mar, 2024
研究发现现有的语言模型数据集包含大量近似重复的示例和长的重复子串。因此,在这些数据集上训练的语言模型的超过 1%的非提示输出是直接从训练数据复制的。我们开发了两个工具,使我们能够定位训练数据集中的冗余数据,以便通过去重来训练模型,减少内存化文本的发生。这也减少了训练和测试重叠,从而提高了模型的准确性。我们在指定的 https 网址上发布我们的工作和代码。
Jul, 2021
该研究显示,大型语言模型在面对隐私攻击时,其攻击的成功与常用网络爬取的训练集中的重复数据有很大关系,而消除重复数据的方法可以显著提高语言模型的隐私安全性。
Feb, 2022
本研究探讨使用文本数据增强技术如洗牌、反向翻译和改写等,以句对分类的方式增强软件工程任务中的冲突与重复检测效果。结论发现,数据增强技术对六个软件文本数据集的所有文本句对效果有显著影响,但在数据集相对平衡时,使用增强技术可能会对分类效果产生负面影响。
May, 2023