作为复合人工智能工具链的自由实体匹配

Jun, 2024

作为复合人工智能工具链的自由实体匹配

Liberal Entity Matching as a Compound AI Toolchain

Silvery D. Fu, David Wang, Wen Zhang, Kathleen Ge

TL;DR通过动态工具使用、自我细化和优化，Libem 支持实体匹配，允许根据数据集和性能指标进行适应和优化，与传统的独立 AI EM 系统相比，Libem 提供了可组合和可重用的工具链，以促进 AI 驱动的数据管理的讨论和发展。

Abstract

entity matching (EM), the task of identifying whether two descriptions refer to the same entity, is essential in data management. Traditional methods have evolved from rule-based to →

entity matching data management libem large language models ai-driven approaches

发现论文，激发创造

利用大型语言模型进行实体匹配

实体匹配是数据集成中的关键任务，本文探讨了将大型语言模型应用于实体匹配的优势、挑战和未来研究方向，同时回顾了关于弱监督和无监督方法在实体匹配中的应用以及大型语言模型如何增强这些方法。

May, 2024

匹配、比较还是选择？对大型语言模型在实体匹配中进行的探究

基于大型语言模型的实体匹配方法通常忽略不同记录之间的整体一致性。本文研究了多种基于大型语言模型的实体匹配方法，将不同视角的记录交互纳入考量，并综合比较了三种具有代表性的策略：匹配、比较和选择。基于实验结果，我们设计了一个组合式的实体匹配框架（ComEM），该框架借鉴了多种策略和大型语言模型的优势，提高了实体匹配的效果和效率，在不同数据集上均取得了显著的性能提升，并降低了基于大型语言模型实体匹配的成本。

May, 2024

利用大型语言模型进行实体匹配

通过使用大型语言模型 (LLMs) 进行实体匹配，我们对可托管的 LLMs (如 GPT3.5 和 GPT4) 以及基于 Llama2 的开源 LLMs 进行了评估，在零 - shot 场景和有任务特定训练数据的场景中比较了不同的提示设计以及模型在零 - shot 场景中的提示敏感度。根据实验结果，我们发现 GPT4 在没有任务特定训练数据的情况下在三个基准数据集上优于精调的 PLMs (RoBERTa 和 Ditto)，达到约 90% 的 F1 分数，而在上下文学习和规则生成方面，除了 GPT4 之外，所有模型都从这些技术中受益（平均 F1 分数提高了 5.9% 和 2.2%），大多数情况下 GPT4 无需额外的指导。

Oct, 2023

利用大型语言模型进行关系发现来消除实体匹配的歧义

通过预定义一组与任务相关的关系，我们的方法将重点从纯粹识别语义相似性转移到理解并定义实体之间的 “关系”，以解决匹配中的模糊性，从而使分析员能够更有效地浏览从完全匹配到概念相关实体的相似性范围。

Mar, 2024

利用大型语言模型实现实体对齐的能力解锁

ChatEA 是一个创新的框架，将大型语言模型（LLMs）结合到实体对齐（EA）中，通过 KG-code 翻译模块和对话式的多步推理策略提高准确性和效率。实验证实了 ChatEA 在 EA 任务中的卓越性能，突出了 LLMs 在促进 EA 任务中的潜力。

Feb, 2024

双管齐下：将知识图谱和大型语言模型的知识融合用于实体对齐

该研究提出了一种基于大型语言模型增强的实体对齐框架（LLMEA），将知识图谱的结构知识与大型语言模型的语义知识相结合，以提升实体对齐的效果。实验结果表明，LLMEA 优于其他基线模型，进一步剖析试验证实了我们提出框架的效能。

Jan, 2024

从自然语言解释中学习以实现通用的实体匹配

将实体匹配重新定义为条件生成任务，借助自然语言解释将大型语言模型的推理方式 “精简” 到较小实体匹配模型中，从而达到强大的性能表现。

Jun, 2024

AdapterEM: 使用 Adapter-tuning 的预训练语言模型适应通用实体匹配

本研究提出一种新的参数高效的模型微调方法（Adapters），并使用这种方法在实体匹配中获得了与使用全模型微调相当或更优的结果。Adapters 方法不仅参数较少，而且可以捕捉 Token 级别的语言表示，并利用预训练 Adapters 实现迁移学习。

May, 2023

AKEM: 使用集成模型将知识库与查询对齐的实体识别和链接

该研究论文提出了一种新方法来解决 NLPCC 2015 中的实体识别和链接挑战问题，通过扩展现有知识库并利用外部知识识别候选实体，提高了召回率，同时利用支持向量回归和多增加回归树作为评分函数来过滤结果，应用规则进一步优化结果并提高精确度，该方法计算效率高，F1 得分为 0.535。

Sep, 2023

一次互为胜佳的匹配：当大型语言模型遇上进化算法

本文阐述了预训练的大型语言模型（LLMs）和进化算法（EAs）之间的强一致性，包括多个一对一的关键特性：记号嵌入和基因型 - 表现型映射，位置编码和适应度塑形，位置嵌入和选择，注意力和交叉，前馈神经网络和突变，模型训练和参数更新，以及多任务学习和多目标优化。在这一一致性视角下，分析了现有的耦合研究，包括进化微调和 LLM 增强型 EAs。借助这些见解，我们概述了未来将 LLMs 和 EAs 耦合的基本研究路线图，并强调了其中的关键挑战。这种一致性不仅揭示了 LLMs 背后的进化机制，还促进了接近或超越生物机构的发展的进化人工智能代理的发展。

Jan, 2024