利用大型语言模型进行关系发现来消除实体匹配的歧义
实体匹配是数据集成中的关键任务,本文探讨了将大型语言模型应用于实体匹配的优势、挑战和未来研究方向,同时回顾了关于弱监督和无监督方法在实体匹配中的应用以及大型语言模型如何增强这些方法。
May, 2024
通过使用大型语言模型 (LLMs) 进行实体匹配,我们对可托管的 LLMs (如 GPT3.5 和 GPT4) 以及基于 Llama2 的开源 LLMs 进行了评估,在零 - shot 场景和有任务特定训练数据的场景中比较了不同的提示设计以及模型在零 - shot 场景中的提示敏感度。根据实验结果,我们发现 GPT4 在没有任务特定训练数据的情况下在三个基准数据集上优于精调的 PLMs (RoBERTa 和 Ditto),达到约 90% 的 F1 分数,而在上下文学习和规则生成方面,除了 GPT4 之外,所有模型都从这些技术中受益(平均 F1 分数提高了 5.9% 和 2.2%),大多数情况下 GPT4 无需额外的指导。
Oct, 2023
本文研究了大型语言模型在实体解析过程中的潜力,包括利用语言模型的优势以及大规模匹配所涉及的计算复杂性,并提出了一种选择最有效匹配问题的策略,同时限制消耗预算,以减少实体解析的不确定性。通过熵作为度量标准评估我们的方法的效果,实验结果证明了我们提出的方法的效率和有效性,为实际应用提供了有希望的前景。
Jan, 2024
使用大型语言模型 MapperGPT 进行术语资源的对齐和实体映射,在结构和词汇信息的基础上,与高检索率的方法相结合,能够显著提高准确性,超过 LogMap 等现有方法。
Oct, 2023
本文分析了当前基础 LLM (ChatGPT) 与专门的预训练模型 (REBEL) 的联合实体和关系提取应用,以可持续发展文本为案例进行了多个实验,结果表明,使用先进的 LLM 模型可以提高从非结构化文本创建知识图谱的过程的准确性,并探索了使用基础 LLM 模型自动创建本体论的潜力,取得更相关和准确的知识图谱。
May, 2023
该研究提出了一种基于大型语言模型增强的实体对齐框架(LLMEA),将知识图谱的结构知识与大型语言模型的语义知识相结合,以提升实体对齐的效果。实验结果表明,LLMEA 优于其他基线模型,进一步剖析试验证实了我们提出框架的效能。
Jan, 2024
本研究提出了一种新的神经实体链接模型,将实体链接中的关系视为潜在变量,并在优化实体链接系统的同时诱导这些关系,同时取得了 AIDA-CoNLL 基准测试上最好的结果。
Apr, 2018
通过使用大型语言模型 (LLMs) 和知识图谱聚类来提取天文文本中的实体和关系,本研究在黑客马拉松期间进行了一项实验,并演示了一种消歧实体的方法,该实体可在天文领域的各种上下文中出现。通过收集特定实体周围的摘录并利用 GPT-4 语言模型,提取相关实体和关系。然后使用利登算法对这些提取的信息构建知识图谱,并对图谱进行聚类。利登聚类结果被用来识别未知摘录与每个聚类的关联度百分比,从而实现消歧。实验展示了在天文研究中将 LLMs 和知识图谱聚类技术相结合进行信息提取的潜力,结果强调了该方法在识别和消歧实体以及基于关系对它们进行有意义聚类方面的有效性。
Jun, 2024
基于大型语言模型的实体匹配方法通常忽略不同记录之间的整体一致性。本文研究了多种基于大型语言模型的实体匹配方法,将不同视角的记录交互纳入考量,并综合比较了三种具有代表性的策略:匹配、比较和选择。基于实验结果,我们设计了一个组合式的实体匹配框架(ComEM),该框架借鉴了多种策略和大型语言模型的优势,提高了实体匹配的效果和效率,在不同数据集上均取得了显著的性能提升,并降低了基于大型语言模型实体匹配的成本。
May, 2024