利用大型语言模型进行实体匹配

Oct, 2023

Entity Matching using Large Language Models

Ralph Peeters, Christian Bizer

TL;DR通过使用大型语言模型 (LLMs) 进行实体匹配，我们对可托管的 LLMs (如 GPT3.5 和 GPT4) 以及基于 Llama2 的开源 LLMs 进行了评估，在零 - shot 场景和有任务特定训练数据的场景中比较了不同的提示设计以及模型在零 - shot 场景中的提示敏感度。根据实验结果，我们发现 GPT4 在没有任务特定训练数据的情况下在三个基准数据集上优于精调的 PLMs (RoBERTa 和 Ditto)，达到约 90% 的 F1 分数，而在上下文学习和规则生成方面，除了 GPT4 之外，所有模型都从这些技术中受益（平均 F1 分数提高了 5.9% 和 2.2%），大多数情况下 GPT4 无需额外的指导。

Abstract

entity matching is the task of deciding whether two entity descriptions refer to the same real-world entity. entity matching is a central step in most data integration pipelines and an enabler for many e-commerce

entity matching language models plms gpt3.5 gpt4

发现论文，激发创造

利用大型语言模型进行实体匹配

实体匹配是数据集成中的关键任务，本文探讨了将大型语言模型应用于实体匹配的优势、挑战和未来研究方向，同时回顾了关于弱监督和无监督方法在实体匹配中的应用以及大型语言模型如何增强这些方法。

May, 2024

使用 ChatGPT 进行实体匹配

本文探讨使用 ChatGPT 作为传统 Transformer 模型的更健壮、训练数据更有效的替代方法，对实体匹配任务进行实验，证明 ChatGPT 表现竞争力与经过 fine-tuned 的 RoBERTa 模型相当，达到 83％的 F1 零次训练，同时使用很少一部分的在上下文中的示例以及提供高级匹配规则可在零次训练下获得类似的增益。

May, 2023

利用大型语言模型进行关系发现来消除实体匹配的歧义

通过预定义一组与任务相关的关系，我们的方法将重点从纯粹识别语义相似性转移到理解并定义实体之间的 “关系”，以解决匹配中的模糊性，从而使分析员能够更有效地浏览从完全匹配到概念相关实体的相似性范围。

Mar, 2024

利用大型语言模型提升实体解析技术

本文研究了大型语言模型在实体解析过程中的潜力，包括利用语言模型的优势以及大规模匹配所涉及的计算复杂性，并提出了一种选择最有效匹配问题的策略，同时限制消耗预算，以减少实体解析的不确定性。通过熵作为度量标准评估我们的方法的效果，实验结果证明了我们提出的方法的效率和有效性，为实际应用提供了有希望的前景。

Jan, 2024

从自然语言解释中学习以实现通用的实体匹配

将实体匹配重新定义为条件生成任务，借助自然语言解释将大型语言模型的推理方式 “精简” 到较小实体匹配模型中，从而达到强大的性能表现。

Jun, 2024

基于大型语言模型的产品属性值提取

使用大型语言模型（例如 GPT-4）进行电子商务应用中基于结构化产品描述的属性 / 值对提取，相较于现有技术，该方法在数据使用效率和性能方面有显著优势。

Oct, 2023

大型语言模型作为数据预处理器

此研究拓展了大型语言模型（LLMs）的应用，探索了它们在数据预处理中的潜力，包括错误检测、数据插补、模式匹配和实体匹配任务。我们提出了一个基于 LLMs 的框架，用于改进模型的性能和效率。实验结果表明 LLMs 在数据预处理中具有巨大潜力。

Aug, 2023

MapperGPT: 大型语言模型用于实体链接和实体映射

使用大型语言模型 MapperGPT 进行术语资源的对齐和实体映射，在结构和词汇信息的基础上，与高检索率的方法相结合，能够显著提高准确性，超过 LogMap 等现有方法。

Oct, 2023

探索大型语言模型进行本体对齐

研究调查了最近的生成式大型语言模型（如 GPT 系列和 Flan-T5）在本体对齐中的适用性，以识别本体之间的概念等价映射。初步发现表明，通过精心设计的框架和提示，LLMs 具有超越现有本体对齐系统（如 BERTMap）的潜力。

Sep, 2023

匹配、比较还是选择？对大型语言模型在实体匹配中进行的探究

基于大型语言模型的实体匹配方法通常忽略不同记录之间的整体一致性。本文研究了多种基于大型语言模型的实体匹配方法，将不同视角的记录交互纳入考量，并综合比较了三种具有代表性的策略：匹配、比较和选择。基于实验结果，我们设计了一个组合式的实体匹配框架（ComEM），该框架借鉴了多种策略和大型语言模型的优势，提高了实体匹配的效果和效率，在不同数据集上均取得了显著的性能提升，并降低了基于大型语言模型实体匹配的成本。

May, 2024