SPARQL 生成：对于在生命科学知识图谱上进行问答的 OpenLLaMA 微调分析

Feb, 2024

SPARQL 生成：对于在生命科学知识图谱上进行问答的 OpenLLaMA 微调分析

SPARQL Generation: an analysis on fine-tuning OpenLLaMA for Question Answering over a Life Science Knowledge Graph

Julio C. Rangel, Tarcisio Mendes de Farias, Ana Claudia Sima, Norio Kobayashi

TL;DR利用大型语言模型 (LLM)，本研究评估了几种策略用于在生命科学知识图谱上进行问题回答，并提出一种端到端的数据增强方法，使得即使在缺乏问题到 SPARQL 查询对的数据集的情况下，也能进行微调。此外，研究还探讨了查询中语义线索的作用，并在真实的基因表达知识图谱上进行了评估，结果表明语义线索可以提高模型性能，相比于随机变量名和没有注释的基准结果，性能提升最多达到 33%。

Abstract

The recent success of large language models (LLM) in a wide range of Natural Language Processing applications opens the path towards novel Question Answering Systems over knowledge graphs leveraging LLMs. However

large language models question answering systems knowledge graphs sparql queries data augmentation

发现论文，激发创造

利用 LLM 在学术知识图谱问答中的优化

使用大型语言模型，该研究论文介绍了一种学术知识图谱问答（KGQA）系统，通过少量示例解决书目自然语言问题。模型使用基于 BERT 的句子编码器来识别与给定测试问题相关的前 n 个相似训练问题，并检索它们对应的 SPARQL 查询。利用前 n 个相似问题 - SPARQL 对作为示例以及测试问题创建提示，并将其传递给大型语言模型以生成 SPARQL 查询。最后，在底层知识图谱（Open Research KG）端点上运行 SPARQL 查询并返回答案。该系统在 Scholarly-QALD-23 挑战基准中的 SciQA 数据集上获得了 99.0% 的 F1 分数。

Nov, 2023

提高问答中的 LLM 准确性：本体论拯救！

使用知识图谱和语义表示的大型语言模型（LLMs）相较于直接对 SQL 数据库（即 Text-to-SQL）回答问题的系统，可以提高准确性，并且研究表明，通过使用知识图谱，准确性提升了从 16% 到 54%。本研究基于此，提出了一个方法来进一步提高准确性和降低错误率，通过本体检查 (LLM-generated SPARQL 查询与本体语义的匹配) 和 LLM 修复错误的 SPARQL 查询两个步骤，成功将准确度提高到 72%，错误率为 20%。研究结果进一步证明，投资于知识图谱，尤其是本体，可以为 LLM 驱动的问答系统提供更高的准确性。

May, 2024

GLaM: 通过邻域分区和生成子图编码对领域知识图的大型语言模型进行微调

我们介绍了一种用于开发图形对齐的语言模型（GLaM）的微调框架，该框架将知识图形转化为具有标签的问题 - 答案对的替代文本表示。我们证明，以特定基于图形的知识为基础的模型具有更强的结构化推理能力。我们的方法利用大型语言模型的生成能力创建数据集，并提出了一种效率高于检索增强型生成方法的替代方法。

Feb, 2024

在学术知识图中利用大型语言模型进行语义查询处理

本研究旨在开发一种创新的语义查询处理系统，允许用户获取澳大利亚国立大学计算机科学（CS）研究员们所产生的研究作品的全面信息。该系统将大型语言模型（LLMs）与澳大利亚国立大学 CS 领域的 ANU Scholarly Knowledge Graph（ASKG）相结合，ASKG 是存储 ANU 所有研究相关产物的结构化知识库。通过结合 Deep Document Model（DDM）进行全面文档表示和 KG-enhanced Query Processing（KGQP）进行优化复杂查询处理的知识图融合方法，以解决传统学术知识图建设和利用方法的局限性，该方法能够获取来自 ASKG 的相关事实和文本节点，并在实验中显示出优于基准方法的结果，具有提高查询准确性和效率的潜力，为开发与 LLMs 的精确可靠交互奠定基础，强化了知识利用与自然语言理解能力。这项工作展示了该框架在学术研究场景中的实际应用，凸显其革新学术知识管理与发现的潜力，使研究人员更有效地获取和利用文档中的知识。

May, 2024

通过生成性数据增强提高特定领域问答小语言模型的效果：Dr. LLaMA

介绍了 Dr. LLaMA，这是一种通过使用大型语言模型进行生成式数据增强来改善小型语言模型的方法，主要关注医学问答任务和 PubMedQA 数据集。研究表明，LLMs 可以有效地改善和多样化问题 - 答案对，从而在微调后使得规模更小的模型获得更好的领域特定 QA 数据集性能。该研究特别强调了在领域特定的问答任务中使用 LLMS 所面临的挑战，并建议了解决这些限制的潜在研究方向，旨在创建更高效、更有能力的专门应用模型。

May, 2023

提升大型语言模型性能以更准确地回答问题和提取信息

通过精调模型和对称相似度、LLM 评估和 Rouge-L 分数等指标的连续反馈循环来提高人工智能模型，利用金融数据集和检索增强生成技术 (RAG)，证明精调模型在问题回答能力方面能够超越零 - shot LLMs 的准确性。

Jan, 2024

通过本体推理对大型企业语言模型进行微调

本文提出了一种新颖的神经符号体系结构，旨在利用本体推理的能力来构建针对任务和领域的特定语料库，以提高 LLM 微调的准确性。

Jun, 2023

大型语言模型的生物医学知识图增强提示生成

提出了一种融合知识图谱和大型语言模型的框架，通过优化方式，增强了通用型语言模型适应处理领域特定问题的能力。

Nov, 2023

从知识图谱中学习为检索增强的大型语言模型规划

使用来自知识图谱的规划数据，我们介绍了一种增强大型语言模型在复杂问答任务中的性能的新框架，通过使用这些数据对 LLMs 进行微调，提高其规划能力，更好地处理涉及检索的复杂 QA 任务。我们的框架在多个数据集上进行评估，包括我们提出的新基准，突出了其有效性和知识图谱派生规划数据的好处。

Jun, 2024

检索 - 改写 - 回答：一种对知识图谱问题回答增强语言模型的框架

尽管大型语言模型在知识密集型任务上表现出竞争力，但它们仍存在于记忆所有世界知识，尤其是长尾知识方面的局限性。本文研究了用于解决知识图谱问答任务的知识图增强语言模型方法。基于回答敏感的 KG-to-Text 方法，我们提出了一种将 KG 知识转化为对 KGQA 最有信息量的文本化陈述的方法，并基于此方法提出了一种 KG-to-Text 增强的 LLMs 框架来解决 KGQA 任务。在几个 KGQA 基准测试上的实验证明了所提出的 KG-to-Text 增强 LLMs 方法在回答准确性和知识陈述的有用性方面优于先前的 KG 增强 LLMs 方法。

Sep, 2023