- 使用 GenAI 进行重复检测
使用最新的大型语言模型和生成式人工智能技术,在常见基准数据集上使用我们提出的方法,能够将数据去重的准确率从使用自然语言处理技术的 30% 提高到近 60%。
- 作为复合人工智能工具链的自由实体匹配
通过动态工具使用、自我细化和优化,Libem 支持实体匹配,允许根据数据集和性能指标进行适应和优化,与传统的独立 AI EM 系统相比,Libem 提供了可组合和可重用的工具链,以促进 AI 驱动的数据管理的讨论和发展。
- 从自然语言解释中学习以实现通用的实体匹配
将实体匹配重新定义为条件生成任务,借助自然语言解释将大型语言模型的推理方式 “精简” 到较小实体匹配模型中,从而达到强大的性能表现。
- 利用大型语言模型进行实体匹配
实体匹配是数据集成中的关键任务,本文探讨了将大型语言模型应用于实体匹配的优势、挑战和未来研究方向,同时回顾了关于弱监督和无监督方法在实体匹配中的应用以及大型语言模型如何增强这些方法。
- 经过分值校准的阈值无关公平匹配
在数据清洗中特别是在实体匹配任务中,本文提出了一种生成匹配分数的方法,以减少不同阈值下的偏见,从而减少数据清洗领域中的偏见。
- 匹配、比较还是选择?对大型语言模型在实体匹配中进行的探究
基于大型语言模型的实体匹配方法通常忽略不同记录之间的整体一致性。本文研究了多种基于大型语言模型的实体匹配方法,将不同视角的记录交互纳入考量,并综合比较了三种具有代表性的策略:匹配、比较和选择。基于实验结果,我们设计了一个组合式的实体匹配框架 - FairEM360: 负责任实体匹配套件
本研究旨在展示 FairEM360 框架,它能够通过多种公平性测量和范式审计实体匹配器的输出,提供潜在的不公平原因解释,并通过人为回馈的探索过程以及多个匹配器的集成来解决不公平问题,从而帮助提高评估 EM 管道的公平性考虑。
- 在政治学中利用大型语言模型进行模糊字符串匹配
使用大型语言模型可以解决模糊字符串匹配问题,进而改善政治学家在不同来源数据结合时的匹配准确性,通过增强提示进一步提高性能。
- 利用大型语言模型进行关系发现来消除实体匹配的歧义
通过预定义一组与任务相关的关系,我们的方法将重点从纯粹识别语义相似性转移到理解并定义实体之间的 “关系”,以解决匹配中的模糊性,从而使分析员能够更有效地浏览从完全匹配到概念相关实体的相似性范围。
- 基于文本的产品匹配 -- 半监督聚类方法
本文旨在利用半监督聚类方法提出一种新的产品匹配哲学,并通过在真实数据集上使用主要文本特征和模糊字符串匹配的 IDEC 算法进行实验来研究该方法的特性。鼓舞人心的结果表明,无监督匹配结合少量标注样本的产品链接可能是一种可行的替代品,而无需进行 - 低资源实体匹配问题中的战舰策略
通过使用先前训练的语言模型的深度学习方法,本研究提出了一种解决实体匹配问题的新的主动学习方法,该方法利用实体匹配的独特属性进行选择机制,将低资源实体匹配问题视为一种战舰游戏,通过感知潜在空间,并仔细规划下一个采样迭代来捕捉指示性样本。经过广 - 利用大型语言模型进行实体匹配
通过使用大型语言模型 (LLMs) 进行实体匹配,我们对可托管的 LLMs (如 GPT3.5 和 GPT4) 以及基于 Llama2 的开源 LLMs 进行了评估,在零 - shot 场景和有任务特定训练数据的场景中比较了不同的提示设计以 - Retail-786k:大规模可视化实体匹配数据集
通过大规模的基于商品广告传单的手动注释高清产品图像数据集,该研究提出了一种名为 “视觉实体匹配” 的学习问题,需要使用新颖的方法将例子中的视觉等价类转移到新的数据上,以解决当前普通图像分类和检索算法无法解决的问题,并旨在为此类算法提供基准。
- 利用 BERT 和神经网络进行复杂属性关联的异构实体匹配
通过引入预训练模型,我们提出了一种新颖的实体匹配模型 (EMM-CCAR),该模型将匹配任务转化为序列匹配问题,以减轻不同数据格式的影响。通过引入注意机制,该模型能够确定属性之间复杂的关系,强调多个属性之间的匹配程度而不仅仅是一对一的对应关 - AAAI探讨历史信息在时态知识图外推中的极限
提出了一种名为 Contrastive Event Network (CENET) 的新的事件预测模型,基于历史对比学习的训练框架,用于在时间知识图推导中区分最有潜力与给定查询最匹配的实体,并在推断过程中使用基于掩码的策略生成最终结果。
- MultiEM: 高效且有效的无监督多表实体匹配
实体匹配是实际数据管理系统中最重要的任务之一,传统的无监督多表实体匹配方法不够有效和高效,因此本文提出了一种名为 MultiEM 的解决方案,通过增强实体表示、层级合并和基于密度的修剪,实现了高效而有效的无监督多表实体匹配。
- 公正视角下的实体匹配实验分析与评估
通过大规模实验证明了实体匹配算法的公平性存在潜在的不足,特别在现实社会中出现一些特定条件下的人口群体过多代表性和名字相似度不同的群体之间。
- SIGIR多分布密集型信息检索的资源和评估
本篇论文提出了一个新问题:多分布信息检索,介绍了三个基于问题回答和实体匹配的数据集来评估此任务的方法,并提供了简单的一些方法以解决已知领域占用大部分预算的问题,结果表明使用这些方法可以提高 Recall@100。
- ACLRE-Matching:针对零样本关系提取的细粒度语义匹配方法
该研究主要针对零样本关系提取中的语义匹配问题,通过设计一种细粒度语义匹配方法,将句子级相似度分成实体和语境匹配分数,并通过特征蒸馏模块自适应识别与关系无关的特征,从而提高匹配率和推理速度。
- AdapterEM: 使用 Adapter-tuning 的预训练语言模型适应通用实体匹配
本研究提出一种新的参数高效的模型微调方法(Adapters),并使用这种方法在实体匹配中获得了与使用全模型微调相当或更优的结果。Adapters 方法不仅参数较少,而且可以捕捉 Token 级别的语言表示,并利用预训练 Adapters 实