开放域问答的两步问题检索

ACLMay, 2022

Two-Step Question Retrieval for Open-Domain QA

Yeon Seonwoo, Juhee Son, Jiho Jin, Sang-Woo Lee, Ji-Hoon Kim...

TL;DR本文提出了一个两步骤的问题检索模型 SQuID，使用两种编码器进行问题检索，第一步检索器选择前 k 个类似的问题，第二步检索器从前 k 个问题中找到最相似的问题，实验证明 SQuID 显著提高了现有问题检索模型的性能，对推理速度的减少可以忽略不计。

Abstract

The retriever-reader pipeline has shown promising performance in open-domain QA but suffers from a very slow inference speed. Recently proposed question →

retrieval question squid bi-encoders inference speed

发现论文，激发创造

可扩展开放领域问答的多步检索器和阅读器交互

该论文介绍了一种新的开放域问答框架，其中检索器和阅读器相互迭代交互，引入了多步推理机制，有助于从长度为百万级的语料库中检索信息性段落，并应用于不同的问答数据集和模型中均取得了一致性的提升。

May, 2019

从文本中回答具有不同推理步骤的开放领域问题

通过使用单个多任务 transformer 模型，我们设计了一个统一的系统，可以迭代地检索支持事实，重新排序它们，并从所有检索的文档中预测答案，从而回答各种需要不同数量的检索步骤的开放领域问题。我们构建了一个新的基准测试 BeerQA，并证明我们的模型在现有基准测试和这个新基准测试上都表现出有竞争力的表现。

Oct, 2020

端到端的神经检索器训练，用于开放领域的问答

本篇论文通过系统地研究检索器的预训练，提出了一种利用反向填空任务和掩盖显著跨度的无监督预训练方法，并在问题 - 上下文对上进行有监督微调的方法。此外还探讨了两种 OpenQA 模型的端对端有监督培训方法，并展示了这些方法在性能方面相对于较小模型的一致性提升。实验结果表明这些方法效果显著优于现有的一些模型。

Jan, 2021

弱监督开放域问答的潜在检索

本文提出了一种新的 open domain question answering 方法，利用问题 - 回答对来同时学习 retriever 和 reader，将 Wikipedia 中的证据检索视为潜在变量，并通过 Inverse Cloze Task 进行预训练。我们的方法在五个 QA 数据集上进行测试，表明在用户真正寻求答案的数据集上，学习检索至关重要，完全匹配方面的得分比传统的 IR 系统（如 BM25）高达 19 个点。

Jun, 2019

当 Retriever-Reader 遇上基于场景的多项选择题

本文提出 JEEVES 这一基于联合检索 - 阅读器模型的算法作为一种自动问答技术。该算法使用了一种新颖的单词加权机制，通过 QA 标签隐式监督检索器，从而解决了当前 SQA 检索困难的问题。在三个 SQA 数据集上的多项选择问题对比实验证明，JEEVES 明显优于其他强基线算法。

Aug, 2021

更好的检索并不一定会导致更好的问答

本文针对欧洲议会选举的数据进行建模，提出了一种基于随机森林和多层感知器神经网络相结合的方法，去完成对选民意向的预测任务，该模型相比其他模型具有更好的预测准确度和稳定性。

May, 2022

Retriever 是否只是 Reader 的逼近算法？

该研究讨论了基于开放域问题回答的现状，重点研究了 retriever 和 reader 之间的关系，通过实证分析表明，两者在准确性方面互为补充。其次提出将 reader 稀疏化，吸收 reader 的优势并保持自身的优点，实验结果表明我们的方法可以提高 off-the-shelf retrievers 在开放域 QA 任务中的文档查全率以及端到端 QA 的准确性。

Oct, 2020

为开放域问答设计最小检索和阅读系统

本文提出了几种策略，大幅减少提取和阅读的开放域问答系统的存储空间占用，即使在边缘设备上使用，也可以实现比纯参数模型更好的准确度。

Apr, 2021

开放域问答阅读器能像人类一样高效地利用外部知识吗？

通过对外部知识进行动态阅读的方法，结合模型参数内已有知识的‘封闭阅读’和结合‘开放阅读’的方式，有效提升了开放域问答模型的推理效率和预测准确率。

Nov, 2022

QUADRo: 问题 - 答案数据库检索的数据集和模型

本文提出了一种基于神经信息检索和重新排名的自动问答系统，利用包含 6.3M 问题和回答对的数据库，实现了开放域问答并超越了传统的非结构化文本或图形搜索方法，并证明了基于 Transformer 模型的 (q,a) 对比仅考虑问题表示更优，该方法具有和在 BING 搜索引擎上构建的 QA 系统竞争的优点。

Mar, 2023