本研究旨在展示 FairEM360 框架,它能够通过多种公平性测量和范式审计实体匹配器的输出,提供潜在的不公平原因解释,并通过人为回馈的探索过程以及多个匹配器的集成来解决不公平问题,从而帮助提高评估 EM 管道的公平性考虑。
Apr, 2024
本综述论文对深度学习技术在实体配对中的应用进行了系统性的总结和分类,讨论了现有技术在实体配对所需的各个步骤上的不同应用和相应的贡献,提出了深度神经网络在实体配对中相对于传统方法的优越性。
Oct, 2020
实体匹配是数据集成中的关键任务,本文探讨了将大型语言模型应用于实体匹配的优势、挑战和未来研究方向,同时回顾了关于弱监督和无监督方法在实体匹配中的应用以及大型语言模型如何增强这些方法。
May, 2024
将实体匹配重新定义为条件生成任务,借助自然语言解释将大型语言模型的推理方式 “精简” 到较小实体匹配模型中,从而达到强大的性能表现。
Jun, 2024
通过大规模实验证明了实体匹配算法的公平性存在潜在的不足,特别在现实社会中出现一些特定条件下的人口群体过多代表性和名字相似度不同的群体之间。
Jul, 2023
基于大型语言模型的实体匹配方法通常忽略不同记录之间的整体一致性。本文研究了多种基于大型语言模型的实体匹配方法,将不同视角的记录交互纳入考量,并综合比较了三种具有代表性的策略:匹配、比较和选择。基于实验结果,我们设计了一个组合式的实体匹配框架(ComEM),该框架借鉴了多种策略和大型语言模型的优势,提高了实体匹配的效果和效率,在不同数据集上均取得了显著的性能提升,并降低了基于大型语言模型实体匹配的成本。
实体匹配是实际数据管理系统中最重要的任务之一,传统的无监督多表实体匹配方法不够有效和高效,因此本文提出了一种名为 MultiEM 的解决方案,通过增强实体表示、层级合并和基于密度的修剪,实现了高效而有效的无监督多表实体匹配。
Aug, 2023
通过动态工具使用、自我细化和优化,Libem 支持实体匹配,允许根据数据集和性能指标进行适应和优化,与传统的独立 AI EM 系统相比,Libem 提供了可组合和可重用的工具链,以促进 AI 驱动的数据管理的讨论和发展。
本研究建立了新的实体匹配(EM)语料库和重构 EM 基准来挑战以前 EM 基准构建过程中的关键性假设,实验证明以往基准构建过程中的假设与开放环境不符,掩盖了 EM 任务的主要挑战。
May, 2022
通过引入预训练模型,我们提出了一种新颖的实体匹配模型 (EMM-CCAR),该模型将匹配任务转化为序列匹配问题,以减轻不同数据格式的影响。通过引入注意机制,该模型能够确定属性之间复杂的关系,强调多个属性之间的匹配程度而不仅仅是一对一的对应关系。使用 EMM-CCAR 模型能够有效应对数据异质性和复杂的属性关联,与现有的 DER-SSM 和 Ditto 方法相比,我们的模型在 F1 得分上分别提升了约 4% 和 1%,为解决实体匹配中属性复杂性的问题提供了一种强大的解决方案。
Sep, 2023