作为复合人工智能工具链的自由实体匹配
实体匹配是数据集成中的关键任务,本文探讨了将大型语言模型应用于实体匹配的优势、挑战和未来研究方向,同时回顾了关于弱监督和无监督方法在实体匹配中的应用以及大型语言模型如何增强这些方法。
May, 2024
基于大型语言模型的实体匹配方法通常忽略不同记录之间的整体一致性。本文研究了多种基于大型语言模型的实体匹配方法,将不同视角的记录交互纳入考量,并综合比较了三种具有代表性的策略:匹配、比较和选择。基于实验结果,我们设计了一个组合式的实体匹配框架(ComEM),该框架借鉴了多种策略和大型语言模型的优势,提高了实体匹配的效果和效率,在不同数据集上均取得了显著的性能提升,并降低了基于大型语言模型实体匹配的成本。
May, 2024
通过使用大型语言模型 (LLMs) 进行实体匹配,我们对可托管的 LLMs (如 GPT3.5 和 GPT4) 以及基于 Llama2 的开源 LLMs 进行了评估,在零 - shot 场景和有任务特定训练数据的场景中比较了不同的提示设计以及模型在零 - shot 场景中的提示敏感度。根据实验结果,我们发现 GPT4 在没有任务特定训练数据的情况下在三个基准数据集上优于精调的 PLMs (RoBERTa 和 Ditto),达到约 90% 的 F1 分数,而在上下文学习和规则生成方面,除了 GPT4 之外,所有模型都从这些技术中受益(平均 F1 分数提高了 5.9% 和 2.2%),大多数情况下 GPT4 无需额外的指导。
Oct, 2023
通过预定义一组与任务相关的关系,我们的方法将重点从纯粹识别语义相似性转移到理解并定义实体之间的 “关系”,以解决匹配中的模糊性,从而使分析员能够更有效地浏览从完全匹配到概念相关实体的相似性范围。
Mar, 2024
ChatEA 是一个创新的框架,将大型语言模型(LLMs)结合到实体对齐(EA)中,通过 KG-code 翻译模块和对话式的多步推理策略提高准确性和效率。实验证实了 ChatEA 在 EA 任务中的卓越性能,突出了 LLMs 在促进 EA 任务中的潜力。
Feb, 2024
该研究提出了一种基于大型语言模型增强的实体对齐框架(LLMEA),将知识图谱的结构知识与大型语言模型的语义知识相结合,以提升实体对齐的效果。实验结果表明,LLMEA 优于其他基线模型,进一步剖析试验证实了我们提出框架的效能。
Jan, 2024
本研究提出一种新的参数高效的模型微调方法(Adapters),并使用这种方法在实体匹配中获得了与使用全模型微调相当或更优的结果。Adapters 方法不仅参数较少,而且可以捕捉 Token 级别的语言表示,并利用预训练 Adapters 实现迁移学习。
May, 2023
该研究论文提出了一种新方法来解决 NLPCC 2015 中的实体识别和链接挑战问题,通过扩展现有知识库并利用外部知识识别候选实体,提高了召回率,同时利用支持向量回归和多增加回归树作为评分函数来过滤结果,应用规则进一步优化结果并提高精确度,该方法计算效率高,F1 得分为 0.535。
Sep, 2023
本文阐述了预训练的大型语言模型(LLMs)和进化算法(EAs)之间的强一致性,包括多个一对一的关键特性:记号嵌入和基因型 - 表现型映射,位置编码和适应度塑形,位置嵌入和选择,注意力和交叉,前馈神经网络和突变,模型训练和参数更新,以及多任务学习和多目标优化。在这一一致性视角下,分析了现有的耦合研究,包括进化微调和 LLM 增强型 EAs。借助这些见解,我们概述了未来将 LLMs 和 EAs 耦合的基本研究路线图,并强调了其中的关键挑战。这种一致性不仅揭示了 LLMs 背后的进化机制,还促进了接近或超越生物机构的发展的进化人工智能代理的发展。
Jan, 2024