Oct, 2023

DIVKNOWQA: 通过知识库和文本进行开放领域问答评估LLM的推理能力

TL;DR大型语言模型在生成能力方面表现出色,但当仅依赖其内部知识时,容易出现幻觉,尤其是在回答需要不太常见的信息的问题时。基于检索的大型语言模型已经成为将其与外部知识结合的潜在解决方案,然而,最近的方法主要强调从非结构化文本语料库进行检索,忽视了底层结构。此外,当前领域存在一个显著的差距,即缺乏对异构知识源(如知识库和文本)上的大型语言模型进行有效定位的实际基准数据集。为了填补这一空白,我们精心策划了一个综合数据集,提出了两个独特挑战:(1)需要从开放域结构化和非结构化的知识源中检索信息的两跳多源问题,正确回答问题需要从结构化知识源中检索信息;(2)符号化查询(例如用于Wikidata的SPARQL)的生成是一个关键要求,增加了额外的挑战。我们的数据集通过预定义的推理链自动生成和人工注释相结合的方式创建,我们还引入了一种新颖的方法,利用多个检索工具,包括文本段落检索和符号化语言辅助检索。我们的模型在解决上述推理挑战方面优于以往的方法。