利用大型语言模型提升实体解析技术

Jan, 2024

利用大型语言模型提升实体解析技术

On Leveraging Large Language Models for Enhancing Entity Resolution

Huahang Li, Longyu Feng, Shuangyin Li, Fei Hao, Chen Jason Zhang...

TL;DR本文研究了大型语言模型在实体解析过程中的潜力，包括利用语言模型的优势以及大规模匹配所涉及的计算复杂性，并提出了一种选择最有效匹配问题的策略，同时限制消耗预算，以减少实体解析的不确定性。通过熵作为度量标准评估我们的方法的效果，实验结果证明了我们提出的方法的效率和有效性，为实际应用提供了有希望的前景。

Abstract

entity resolution, the task of identifying and consolidating records that pertain to the same real-world entity, plays a pivotal role in various sectors such as e-commerce, healthcare, and law enforcement. The emergence of Large Language Models (→

entity resolution large language models llms matching questions entropy

发现论文，激发创造

利用大型语言模型进行实体匹配

实体匹配是数据集成中的关键任务，本文探讨了将大型语言模型应用于实体匹配的优势、挑战和未来研究方向，同时回顾了关于弱监督和无监督方法在实体匹配中的应用以及大型语言模型如何增强这些方法。

May, 2024

利用大型语言模型进行实体匹配

通过使用大型语言模型 (LLMs) 进行实体匹配，我们对可托管的 LLMs (如 GPT3.5 和 GPT4) 以及基于 Llama2 的开源 LLMs 进行了评估，在零 - shot 场景和有任务特定训练数据的场景中比较了不同的提示设计以及模型在零 - shot 场景中的提示敏感度。根据实验结果，我们发现 GPT4 在没有任务特定训练数据的情况下在三个基准数据集上优于精调的 PLMs (RoBERTa 和 Ditto)，达到约 90% 的 F1 分数，而在上下文学习和规则生成方面，除了 GPT4 之外，所有模型都从这些技术中受益（平均 F1 分数提高了 5.9% 和 2.2%），大多数情况下 GPT4 无需额外的指导。

Oct, 2023

MapperGPT: 大型语言模型用于实体链接和实体映射

使用大型语言模型 MapperGPT 进行术语资源的对齐和实体映射，在结构和词汇信息的基础上，与高检索率的方法相结合，能够显著提高准确性，超过 LogMap 等现有方法。

Oct, 2023

利用大型语言模型进行关系发现来消除实体匹配的歧义

通过预定义一组与任务相关的关系，我们的方法将重点从纯粹识别语义相似性转移到理解并定义实体之间的 “关系”，以解决匹配中的模糊性，从而使分析员能够更有效地浏览从完全匹配到概念相关实体的相似性范围。

Mar, 2024

利用大型语言模型增强知识图谱构建

本文分析了当前基础 LLM (ChatGPT) 与专门的预训练模型 (REBEL) 的联合实体和关系提取应用，以可持续发展文本为案例进行了多个实验，结果表明，使用先进的 LLM 模型可以提高从非结构化文本创建知识图谱的过程的准确性，并探索了使用基础 LLM 模型自动创建本体论的潜力，取得更相关和准确的知识图谱。

May, 2023

大型语言模型准备好应用于医疗保健了吗？临床语言理解的比较研究

本研究通过对临床语言理解任务的全面评估和引入一种新的提示策略 —— 自问自答提示（SQP），来提高大型语言模型 (GPT-3.5、GPT-4 和 Bard) 在医疗相关任务中的性能，同时还提供了有关挑战性关系抽取任务误差分布和潜在改进方法的有价值洞察。此项研究为之后的研究和开发医疗应用奠定了基础。

Apr, 2023

基于维基百科风格的调查问卷生成的大型语言模型：在 NLP 概念上的评估

通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估，本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功，并揭示了 LLM 在特定领域应用中存在的问题和短板。

Aug, 2023

匹配、比较还是选择？对大型语言模型在实体匹配中进行的探究

基于大型语言模型的实体匹配方法通常忽略不同记录之间的整体一致性。本文研究了多种基于大型语言模型的实体匹配方法，将不同视角的记录交互纳入考量，并综合比较了三种具有代表性的策略：匹配、比较和选择。基于实验结果，我们设计了一个组合式的实体匹配框架（ComEM），该框架借鉴了多种策略和大型语言模型的优势，提高了实体匹配的效果和效率，在不同数据集上均取得了显著的性能提升，并降低了基于大型语言模型实体匹配的成本。

May, 2024

提升大型语言模型性能以更准确地回答问题和提取信息

通过精调模型和对称相似度、LLM 评估和 Rouge-L 分数等指标的连续反馈循环来提高人工智能模型，利用金融数据集和检索增强生成技术 (RAG)，证明精调模型在问题回答能力方面能够超越零 - shot LLMs 的准确性。

Jan, 2024

为临床任务对齐大型语言模型

大型语言模型在临床应用中的关键性挑战是对其进行有效的对齐，以实现准确生成具备事实内容和非平凡推理能力的响应。本研究提出了一种名为 “扩展 - 猜测 - 精化” 的医学问题回答的对齐策略，该策略通过采用指令调整和少样本以及连续思考等方法显著提高了大型语言模型的性能。初步分析表明，该方法在从 USMLE 数据集中选取的问题子集上达到了 70.63% 的优异表现。

Sep, 2023