使用大型语言模型匹配表格元数据与业务词汇
传统数据集检索系统主要依赖元数据信息进行索引,而不是数据值。本文提出了一种使用三个大型语言模型 (ChatGPT-3.5、GoogleBard 和 GoogleGemini) 对列标题进行主题注释的元数据增强方法。通过评估模型的内部一致性、机器间对齐性和人机一致性来验证模型的能力,并研究上下文信息对分类结果的影响。结果表明,ChatGPT 和 GoogleGemini 在内部一致性和模型 - 人的一致性方面优于 GoogleBard。有趣的是,我们发现上下文对于语言模型的表现没有影响。本文提出了一种使用控制主题词汇来利用语言模型进行文本分类的新方法,有潜力促进自动化的元数据增强,从而提升在 Web 上的数据集检索、查找性、可访问性、互操作性和可重用性 (FAIR)。
Mar, 2024
语义文本相似性在软件工程中具有重要作用,在工程师需要澄清描述性标签(例如,业务术语、表列名)的语义的任务中,这些标签通常由过于简短或过于通用的词组成,并在其信息技术系统中出现。我们将这种问题定义为将描述性标签与词汇表描述匹配的任务。然后,我们提出了一个框架,利用现有的语义文本相似性测量(STS),并使用语义标签增强和基于集合的上下文化来增强它,其中前者是一种检索与给定标签相关的句子的方法,而后者是一种计算两个上下文之间相似度的方法,其中每个上下文均来自一组文本(例如,同一表中的列名)。我们对两个由公开可用数据源生成的数据集进行了实验,结果表明,所提出的方法能够帮助底层 STS 正确匹配更多的描述性标签与描述。
Oct, 2023
通过预定义一组与任务相关的关系,我们的方法将重点从纯粹识别语义相似性转移到理解并定义实体之间的 “关系”,以解决匹配中的模糊性,从而使分析员能够更有效地浏览从完全匹配到概念相关实体的相似性范围。
Mar, 2024
通过使用大型语言模型 (LLMs) 进行实体匹配,我们对可托管的 LLMs (如 GPT3.5 和 GPT4) 以及基于 Llama2 的开源 LLMs 进行了评估,在零 - shot 场景和有任务特定训练数据的场景中比较了不同的提示设计以及模型在零 - shot 场景中的提示敏感度。根据实验结果,我们发现 GPT4 在没有任务特定训练数据的情况下在三个基准数据集上优于精调的 PLMs (RoBERTa 和 Ditto),达到约 90% 的 F1 分数,而在上下文学习和规则生成方面,除了 GPT4 之外,所有模型都从这些技术中受益(平均 F1 分数提高了 5.9% 和 2.2%),大多数情况下 GPT4 无需额外的指导。
Oct, 2023
通过对 200 个描述肺癌人样本的 NCBI BioSample 数据记录进行实验,评估 GPT-4 对于符合元数据标准的建议编辑能力,并通过同行评审过程计算了字段名 - 字段值对的符合精确度,发现辅助 GPT-4 以 CEDAR 模板的文本描述作为领域信息,从 79% 提高到 97%(p<0.01),结果表明 LLMs 与结构化知识库整合后,可以在自动化元数据管理中显示出希望。
Apr, 2024
本文介绍了一种基于大型语言模型的上下文学习方法,通过 GPT-3.5 和为主题元数据注释设计的提示,实现了自动元数据注释,在一些类别中表现出有前景的性能。
Oct, 2023
实体匹配是数据集成中的关键任务,本文探讨了将大型语言模型应用于实体匹配的优势、挑战和未来研究方向,同时回顾了关于弱监督和无监督方法在实体匹配中的应用以及大型语言模型如何增强这些方法。
May, 2024
本文介绍了一种名为 ReMatch 的新方法,使用检索增强的大型语言模型(LLMs)匹配架构,无需预定义映射、模型训练或访问源数据库的数据。实验结果表明,ReMatch 显著提高了匹配能力,并优于其他机器学习方法。
Mar, 2024
通过对大型语言模型(LLMs)在表格任务方面的应用进行全面的概述,本文除了涵盖传统的表格问答(Table QA)和事实验证等领域,还强调了表格操作和高级表格数据分析等新方面,并介绍了 LLMs 中的指导调优、提示和基于代理的方法,同时也提出了私有部署、高效推理和开发广泛基准的相关挑战。
Feb, 2024
利用大型语言模型(LLMs)解决数据科学中与表格数据相关的预测任务的研究,通过创建一个包含注解指令的综合数据集来对 LLM 进行大规模训练,研究应用训练好的模型在零样本预测、少样本预测和上下文学习场景中的实际应用,并通过实验证明该方法在表格智能方面相较于现有基准有显著改进。
Mar, 2024