使用 GenAI 进行重复检测

Jun, 2024

Duplicate Detection with GenAI

Ian Ormesher

TL;DR使用最新的大型语言模型和生成式人工智能技术，在常见基准数据集上使用我们提出的方法，能够将数据去重的准确率从使用自然语言处理技术的 30% 提高到近 60%。

Abstract

customer data is often stored as records in Customer Relations Management systems (CRMs). Data which is manually entered into such systems by one of more users over time leads to data replication, partial duplica

customer data crm data replication entity matching data de-duplication

发现论文，激发创造

ASR 转录中实体分布建模的记录去重技术

采用实体去重技术来解决语音数字助手中实体集合需要经常重构的问题，并使用环境偏置来保持与时俱进。

Jun, 2023

使用自然语言处理技术对 Bug 报告进行自动标记

本文提出了一种基于自然语言处理技术的方法，考虑 Bug 报告的结构化和非结构化属性，例如概述、描述、严重性、影响产品、平台和类别等信息，利用自定义数据转换器、深度神经网络和非泛化机器学习方法检索现有的相同 Bug 报告，并在大量数据来源的众多实验中展示了所提出的解决方案在召回率为 5 时的高检索准确性为 70%。

Dec, 2022

社交媒体数据选择的生成式去重

使用生成复制技术解决社交媒体数据中存在的冗余问题，提高语言理解性能并节省训练时间。

Jan, 2024

面向规模化的抗噪去重

使用历史新闻电线的独特时效性创建了一个包含 27,210 个文件，122,876 个正重复对的数据集，评估了区分训练的双编码器和组合双编码器和交叉编码器的范围，结果表明神经方法显着优于哈希和 N-gram 重叠，并且 bi-encoder 在单个 GPU 卡上的可伸缩性很高。

Oct, 2022

重复项检测服务

本文提出了以服务为基础的方法，旨在提高知识图的完整性并在未需专业知识的前提下实现实例的去重，其具有易于使用性和竞争力，并已在工业应用中得到采用。

Jul, 2022

利用大型语言模型进行关系发现来消除实体匹配的歧义

通过预定义一组与任务相关的关系，我们的方法将重点从纯粹识别语义相似性转移到理解并定义实体之间的 “关系”，以解决匹配中的模糊性，从而使分析员能够更有效地浏览从完全匹配到概念相关实体的相似性范围。

Mar, 2024

数据去重对语言模型的训练有益

研究发现现有的语言模型数据集包含大量近似重复的示例和长的重复子串。因此，在这些数据集上训练的语言模型的超过 1％的非提示输出是直接从训练数据复制的。我们开发了两个工具，使我们能够定位训练数据集中的冗余数据，以便通过去重来训练模型，减少内存化文本的发生。这也减少了训练和测试重叠，从而提高了模型的准确性。我们在指定的 https 网址上发布我们的工作和代码。

Jul, 2021

去重训练数据减缓语言模型的隐私风险

该研究显示，大型语言模型在面对隐私攻击时，其攻击的成功与常用网络爬取的训练集中的重复数据有很大关系，而消除重复数据的方法可以显著提高语言模型的隐私安全性。

Feb, 2022

客户 360 中的可解释化实体匹配 (xEM)

介绍了一种可解释的实体匹配系统（xEM），它是基于概率匹配引擎和人工神经网络模型的，旨在帮助解释实体匹配任务的 AI/ML 问题。

Dec, 2022

软件工程句对冲突和重复检测的数据增强

本研究探讨使用文本数据增强技术如洗牌、反向翻译和改写等，以句对分类的方式增强软件工程任务中的冲突与重复检测效果。结论发现，数据增强技术对六个软件文本数据集的所有文本句对效果有显著影响，但在数据集相对平衡时，使用增强技术可能会对分类效果产生负面影响。

May, 2023