DIVKNOWQA: 通过知识库和文本进行开放领域问答评估LLM的推理能力

Oct, 2023

DIVKNOWQA: 通过知识库和文本进行开放领域问答评估LLM的推理能力

DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain Question Answering over Knowledge Base and Text

Wenting Zhao, Ye Liu, Tong Niu, Yao Wan, Philip S. Yu...

TL;DR大型语言模型在生成能力方面表现出色，但当仅依赖其内部知识时，容易出现幻觉，尤其是在回答需要不太常见的信息的问题时。基于检索的大型语言模型已经成为将其与外部知识结合的潜在解决方案，然而，最近的方法主要强调从非结构化文本语料库进行检索，忽视了底层结构。此外，当前领域存在一个显著的差距，即缺乏对异构知识源（如知识库和文本）上的大型语言模型进行有效定位的实际基准数据集。为了填补这一空白，我们精心策划了一个综合数据集，提出了两个独特挑战：（1）需要从开放域结构化和非结构化的知识源中检索信息的两跳多源问题，正确回答问题需要从结构化知识源中检索信息；（2）符号化查询（例如用于Wikidata的SPARQL）的生成是一个关键要求，增加了额外的挑战。我们的数据集通过预定义的推理链自动生成和人工注释相结合的方式创建，我们还引入了一种新颖的方法，利用多个检索工具，包括文本段落检索和符号化语言辅助检索。我们的模型在解决上述推理挑战方面优于以往的方法。

Abstract

large language models (LLMs) have exhibited impressive generation capabilities, but they suffer from hallucinations when solely relying on their internal knowledge, especially when answering questions that requir

发现论文，激发创造

搜索锁链：面向复杂知识密集型任务的精确、可信和可追溯的内容生成

本文提出一种称为Search-in-the-Chain（SearChain）的新框架，旨在通过将信息检索和LLM深度整合来提高LLM生成答案的准确性、可信性和可追溯性，具体应用于 typ ical complex knowledge-intensive task 中 multi-hop question answering。

Apr, 2023

ToolQA: 一个带有外部工具的 LLM 问答数据集

为了有效评估 Large Language Models（LLMs）使用外部工具回答问题的能力，我们开发了一个名为 ToolQA 的新数据集，并使用可伸缩的自动化过程进行数据集的管理，并使用13种专门设计的工具进行交互以回答问题。

Jun, 2023

利用检索增强探究大语言模型的事实知识边界

大规模语言模型 (LLMs) 在解决知识密集型任务方面展示出了令人印象深刻的能力。本研究通过分析 LLMs 的事实知识边界以及检索增强对其开放领域问题回答能力的影响，揭示了 LLMs 在自信度、准确度和判断能力方面的特征。研究发现检索增强是提升 LLMs 对知识边界感知的有效方法，并且 LLMs 在生成答案时倾向于依赖检索结果，但结果质量对其依赖程度有显著影响。

Jul, 2023

探索 LLMs 对长文问题回答的可行性

从长文摘要生成问题的方法对于LLMs的性能造成挑战，表明LLMs（如ChatGPT）与开源LLMs（Alpaca、Llama）之间存在性能差距。

Sep, 2023

利用LLM提升条件问答

该研究探讨了大型语言模型 (LLMs) 在具有挑战性的条件问答领域中的能力和局限性。利用条件问答 (CQA) 数据集，重点关注 T5 和 UL2 等生成模型，我们评估了LLMs在不同问题类型上的性能。研究发现，经过微调的LLMs在某些情况下可以超越现有技术在一些方面的表现，即使没有完全编码所有输入上下文，对于是/否问题的精确匹配 (EM) 和 F1 分数有7-8个点的增加。然而，这些模型在抽取性问答方面遇到了挑战，在与现有技术相比落后于10个以上的点，并且在减少注入错误信息的风险方面也存在问题。与神谕检索器进行的一项研究强调了有效证据检索的关键作用，强调了该领域需要先进解决方案的必要性。此外，我们强调了评估评价指标对性能评估的重要影响，并倡导使用更全面的评估框架。任务的复杂性、观察到的性能差异以及在条件问答任务中改进训练任务和探索基于提示的技术以提高LLMs性能的未来工作的需求，突显了这一领域面临的持续挑战。

Dec, 2023

通过问答探究语言模型对结构化语义理解和生成的能力

最近大规模语言模型能力的进步引发了对其评估的新浪潮，这篇研究工作通过在自然语言和形式语言之间的相互转换来验证大规模语言模型理解和生成结构化逻辑形式的能力，实验证明现今最先进的大规模语言模型在理解逻辑形式方面整体上接近人类水平，但在生成正确逻辑形式方面仍有改进的空间，使用大规模语言模型生成更自然的语言训练数据以增强小型模型的效果更好，同时结果还表明模型对不同形式语言表现出显著的敏感性，总体而言，形式化程度较低、更接近自然语言的形式语言对大规模语言模型更友好。

Jan, 2024

小型模型，大洞见：利用精简代理模型决定何时和何物为大型语言模型检索

通过代理模型SlimPLM在问题-回答任务中，检测大型语言模型（LLMs）中缺失的知识，并大幅提升LLMs的端到端性能，降低LLM推理成本。

Feb, 2024

利用大型语言模型的多角色能力进行面向开放领域的问答

开放领域问答（ODQA）作为信息系统中的关键研究领域已经崛起。现有方法采用两种主要范式来收集证据：（1）“先检索然后阅读”范式从外部语料库中检索相关文档；（2）“先生成然后阅读”范式使用大型语言模型（LLMs）生成相关文档。然而，两者都无法完全满足证据的多方面需求。因此，本文提出了LLMQA，一种通用框架，将ODQA过程分为三个基本步骤：查询扩展、文档选择和答案生成，结合了基于检索和基于生成的证据的优势。由于LLMs展示了在各种任务中表现出的出色能力，我们在框架中指导LLMs担任多个角色，作为生成器、重新排序器和评估器，集成它们在ODQA过程中的协作。此外，我们引入了一种新颖的提示优化算法，以改进角色扮演提示，引导LLMs生成更高质量的证据和答案。在广泛使用的基准测试（NQ、WebQ和TriviaQA）上进行的大量实验结果表明，LLMQA在答案准确性和证据质量方面达到了最佳表现，展示了其推进ODQA研究和应用的潜力。

Mar, 2024

高效知识路径的推理：知识图引导领域问题回答的大型语言模型

通过在知识图谱（KG）上选择推理路径并结合思维链（CoT）和PageRank的子图检索方法，本文整合和优化了一个基于大型语言模型（LLM）的管道，可以减少对LLM的依赖。最终，RoK证明了使用较少的LLM调用可以达到相同的结果。

Apr, 2024

利用三元组预处理技术结合半结构化知识和大型语言模型提升问答能力

本研究解决了大型语言模型（LLMs）在特定领域知识缺失及生成内容不可靠的问题。提出了一种名为4StepFocus的处理流程，利用三元组搜索在半结构化知识库中引导访问外部知识，从而显著提升模型生成的答案质量。实验结果表明，该方法在信息检索和性能提升方面均优于现有最先进的方法，展现了广阔的未来研究潜力。

Sep, 2024