从文本中回答具有不同推理步骤的开放领域问题
本文提出使用维基百科作为唯一知识源来解决开放领域问题回答,提出了一种基于大二元哈希和 TF-IDF 匹配的搜索组件与训练于维基段落中检测答案的多层循环神经网络模型的结合方法,同时现有数据集的实验结果表明,这两个模块都是高度竞争力的,并且使用远程监督进行多任务学习的组合是这个具有挑战性任务的有效完整系统。
Mar, 2017
本文提出了基于 RNN 和神经模型的信息检索和理解两个步骤的开放域问答系统来解决信息检索的问题,并在 Wiki Movies 数据集上达到了最先进的表现,通过减少 40% 的错误率来证明了每个组件的重要性。
Mar, 2017
本文提出了一种方法,用于在大量知识库之中检索多个支持段落,以回答所提出的问题。该方法使用联合向量表示形式,并考虑知识源中段落的上下文句子表示形式。该技术在 SQuAD-Open 和 HotpotQA 的数据集上实现了开放域问答的最新成果。
Jun, 2019
提出一种新颖的开放领域问答框架,使用中介模块对异构知识源上的单跳 / 多跳问题进行回答。在预训练语言模型的基础上,通过将检索到的证据与其相关的全局上下文链接到图中,并将它们组织成候选证据链,实现了竞争性的性能。在两个 ODQA 数据集 OTT-QA 和 NQ 上,我们的模型显著优于之前最先进的方法,在 OTT-QA 上具有 47.3 的精确匹配分数(相对增益 45%)。
Oct, 2022
介绍了一种基于图形的循环检索方法,学习在 Wikipedia 图形上检索推理路径来回答多跳开放域问答问题。该方法在三个开放域 QA 数据集上实现了最新技术成果,特别是在 HotpotQA 中表现出显著的改进,超过了以前最好的模型 14 个百分点以上。
Nov, 2019
该论文介绍了一种新的开放域问答框架,其中检索器和阅读器相互迭代交互,引入了多步推理机制,有助于从长度为百万级的语料库中检索信息性段落,并应用于不同的问答数据集和模型中均取得了一致性的提升。
May, 2019
本研究提出了一种基于 transformer 架构的内部逐层注意力机制,将知识库搜索模型和重排模型整合为统一的模型,并进行端到端训练,以实现高效利用模型容量并提高梯度流量。该模型可以在固定参数预算内显著优于现有模型,达到 1.0 和 0.7 的精准匹配得分。
Dec, 2021
本文提出一种基于语义知识排名模型和知识融合模型的开放领域问答方法,该方法通过整合基于 Lucene 的信息检索系统检索的知识和 BERT 语言模型中的外部检索知识,以正确回答问题。研究表明,基于知识融合模型的方法优于之前的尝试。
Apr, 2020
大型语言模型在生成能力方面表现出色,但当仅依赖其内部知识时,容易出现幻觉,尤其是在回答需要不太常见的信息的问题时。基于检索的大型语言模型已经成为将其与外部知识结合的潜在解决方案,然而,最近的方法主要强调从非结构化文本语料库进行检索,忽视了底层结构。此外,当前领域存在一个显著的差距,即缺乏对异构知识源(如知识库和文本)上的大型语言模型进行有效定位的实际基准数据集。为了填补这一空白,我们精心策划了一个综合数据集,提出了两个独特挑战:(1)需要从开放域结构化和非结构化的知识源中检索信息的两跳多源问题,正确回答问题需要从结构化知识源中检索信息;(2)符号化查询(例如用于 Wikidata 的 SPARQL)的生成是一个关键要求,增加了额外的挑战。我们的数据集通过预定义的推理链自动生成和人工注释相结合的方式创建,我们还引入了一种新颖的方法,利用多个检索工具,包括文本段落检索和符号化语言辅助检索。我们的模型在解决上述推理挑战方面优于以往的方法。
Oct, 2023