利用大型语言模型进行实体匹配

May, 2024

Leveraging Large Language Models for Entity Matching

Qianyu Huang, Tongfang Zhao

TL;DR实体匹配是数据集成中的关键任务，本文探讨了将大型语言模型应用于实体匹配的优势、挑战和未来研究方向，同时回顾了关于弱监督和无监督方法在实体匹配中的应用以及大型语言模型如何增强这些方法。

Abstract

entity matching (EM) is a critical task in data integration, aiming to identify records across different datasets that refer to the same real-world entities. Traditional methods often rely on manually engineered

entity matching data integration large language models gpt-4 weak supervision

发现论文，激发创造

利用大型语言模型进行实体匹配

通过使用大型语言模型 (LLMs) 进行实体匹配，我们对可托管的 LLMs (如 GPT3.5 和 GPT4) 以及基于 Llama2 的开源 LLMs 进行了评估，在零 - shot 场景和有任务特定训练数据的场景中比较了不同的提示设计以及模型在零 - shot 场景中的提示敏感度。根据实验结果，我们发现 GPT4 在没有任务特定训练数据的情况下在三个基准数据集上优于精调的 PLMs (RoBERTa 和 Ditto)，达到约 90% 的 F1 分数，而在上下文学习和规则生成方面，除了 GPT4 之外，所有模型都从这些技术中受益（平均 F1 分数提高了 5.9% 和 2.2%），大多数情况下 GPT4 无需额外的指导。

Oct, 2023

利用大型语言模型提升实体解析技术

本文研究了大型语言模型在实体解析过程中的潜力，包括利用语言模型的优势以及大规模匹配所涉及的计算复杂性，并提出了一种选择最有效匹配问题的策略，同时限制消耗预算，以减少实体解析的不确定性。通过熵作为度量标准评估我们的方法的效果，实验结果证明了我们提出的方法的效率和有效性，为实际应用提供了有希望的前景。

Jan, 2024

匹配、比较还是选择？对大型语言模型在实体匹配中进行的探究

基于大型语言模型的实体匹配方法通常忽略不同记录之间的整体一致性。本文研究了多种基于大型语言模型的实体匹配方法，将不同视角的记录交互纳入考量，并综合比较了三种具有代表性的策略：匹配、比较和选择。基于实验结果，我们设计了一个组合式的实体匹配框架（ComEM），该框架借鉴了多种策略和大型语言模型的优势，提高了实体匹配的效果和效率，在不同数据集上均取得了显著的性能提升，并降低了基于大型语言模型实体匹配的成本。

May, 2024

利用大型语言模型进行关系发现来消除实体匹配的歧义

通过预定义一组与任务相关的关系，我们的方法将重点从纯粹识别语义相似性转移到理解并定义实体之间的 “关系”，以解决匹配中的模糊性，从而使分析员能够更有效地浏览从完全匹配到概念相关实体的相似性范围。

Mar, 2024

利用大型语言模型增强知识图谱构建

本文分析了当前基础 LLM (ChatGPT) 与专门的预训练模型 (REBEL) 的联合实体和关系提取应用，以可持续发展文本为案例进行了多个实验，结果表明，使用先进的 LLM 模型可以提高从非结构化文本创建知识图谱的过程的准确性，并探索了使用基础 LLM 模型自动创建本体论的潜力，取得更相关和准确的知识图谱。

May, 2023

通过基于大型语言模型的文本补充和重写增强嵌入性能

利用大型语言模型丰富和重写输入文本，改善嵌入模型的性能，并在特定领域取得显著改进。

Apr, 2024

从自然语言解释中学习以实现通用的实体匹配

将实体匹配重新定义为条件生成任务，借助自然语言解释将大型语言模型的推理方式 “精简” 到较小实体匹配模型中，从而达到强大的性能表现。

Jun, 2024

大型语言模型作为数据预处理器

此研究拓展了大型语言模型（LLMs）的应用，探索了它们在数据预处理中的潜力，包括错误检测、数据插补、模式匹配和实体匹配任务。我们提出了一个基于 LLMs 的框架，用于改进模型的性能和效率。实验结果表明 LLMs 在数据预处理中具有巨大潜力。

Aug, 2023

LTNER：基于上下文实体标记的大型语言模型命名实体识别

LLMs 在自然语言处理中的应用已成为近两年的热门趋势，然而，对于某些 NLP 任务，如 NER，在与监督学习方法相比较时，LLMs 的性能仍然不足以胜任。我们的研究开发了一种名为 LTNER 的 NER 处理框架，该框架融入了一种革命性的上下文化实体标记生成方法，通过利用成本效益高的 GPT-3.5 以及无需额外训练的上下文学习，显著提高了 LLMs 在处理 NER 任务时的准确性。在 CoNLL03 数据集上的 F1 得分从初始的 85.9% 增加到 91.9%，接近了监督微调的性能，这一结果增进了对 LLMs 潜力的深入认识。

Apr, 2024

MapperGPT: 大型语言模型用于实体链接和实体映射

使用大型语言模型 MapperGPT 进行术语资源的对齐和实体映射，在结构和词汇信息的基础上，与高检索率的方法相结合，能够显著提高准确性，超过 LogMap 等现有方法。

Oct, 2023