评估 GPT 的知识库完善潜力
本文介绍了一种更具挑战性的基准数据集和方法,用于评估语言模型在无监督知识库补全方面的潜力,并发现了语言模型在补全 Wikidata 中 nativeLanguage、usedLanguage 和 citizenOf 等关系方面表现出强大的泛化能力。
Mar, 2023
通过将大型语言模型与知识库相结合,KnowledGPT 能够更好地回答涉及世界知识的更广泛问题,利用广为人知的知识库和个性化知识库中的知识。
Aug, 2023
通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估,本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功,并揭示了 LLM 在特定领域应用中存在的问题和短板。
Aug, 2023
大型语言模型 (LLMs) 能够解决与知识图谱相关的任务,如知识图谱补全,尤其在零次或少次训练的范式下。然而,它们被称为会产生错误的答案,或以不确定的方式输出结果,从而导致错误推理的回答,即使它们满足用户的需求。为了强调知识图谱相关任务中的机遇和挑战,我们在静态知识图谱的知识图谱补全任务中,使用 TELeR 分类法构建的提示,在零次和一次迭代的上下文中,通过两个显著的 LLMs 进行实验,即 Mixtral-8x7B-Instruct-v0.1 和 gpt-3.5-turbo-0125,在以任务为导向的对话系统使用案例中。当使用严格和灵活的度量标准进行评估时,我们的结果表明,如果提示包含足够的信息和相关示例,LLMs 可能适用于这样的任务。
May, 2024
提出了一种整合了大型语言模型和三元组为基础的知识图谱完成方法,名为 KICGPT,通过使用知识提示来解决长尾问题并改进效率,而无需额外的训练和微调。
Feb, 2024
本文提出了一种基于语言模型的知识库完成方法,针对长尾实体的事实,该方法利用两个不同的语言模型进行候选检索和候选验证和消歧,通过评估我们的方法和不同的基线,引入一个名为 MALT 的基于 Wikidata 的数据集,我们的方法在 F1 中优于所有基线,尤其是在召回率方面有很大提升。
Jun, 2023
通过对 200 个描述肺癌人样本的 NCBI BioSample 数据记录进行实验,评估 GPT-4 对于符合元数据标准的建议编辑能力,并通过同行评审过程计算了字段名 - 字段值对的符合精确度,发现辅助 GPT-4 以 CEDAR 模板的文本描述作为领域信息,从 79% 提高到 97%(p<0.01),结果表明 LLMs 与结构化知识库整合后,可以在自动化元数据管理中显示出希望。
Apr, 2024
KG-GPT 是一个多功能框架,利用大型语言模型(LLMs)进行知识图谱(KGs)相关任务的复杂推理,将句子分割、检索相关图谱组件和推导逻辑结论分为三个步骤。我们通过使用基于 KG 的事实验证和 KGQA 基准来评估 KG-GPT,发现该模型表现出竞争力和稳健性,甚至胜过几个完全监督的模型。因此,我们的工作在统一 LLMs 的结构化和非结构化数据处理方面迈出了重要的一步。
Oct, 2023
将知识库与大型语言模型的智能教师集成,可以提高回答准确性和教学能力,并且在讲授方式和理解学生方面表现得更好,但在帮助学生方面还略逊一筹。
Sep, 2023
本文对大型语言模型在知识图谱构建和推理方面进行了全面的定量和定性评估,结果表明,GPT-4 在大多数任务中表现优异,并在某些推理和问答数据集中甚至超过了微调模型。同时,我们还提出了基于多智能体的 AutoKG 方法,该方法可利用 LLMs 进行知识图谱构建和推理,为该领域的未来发展提供有趣的机遇。
May, 2023