面向开放域问答的渐进式预训练稠密语料库索引

ACLApr, 2020

面向开放域问答的渐进式预训练稠密语料库索引

Progressively Pretrained Dense Corpus Index for Open-Domain Question Answering

Wenhan Xiong, Hong Wang, William Yang Wang

TL;DR本研究提出了一种简单且资源有效的方法，利用现有的预训练序列到序列模型来建立强大的问题生成器，并通过渐进式预训练算法确保每个批次有效的负样本存在，以预训练段落编码器。通过三个数据集的实验，本方法在使用 7 倍的计算资源进行预训练的现有浓缩检索方法方面取得了更好的效果。

Abstract

To extract answers from a large corpus, open-domain question answering (QA) systems usually rely on information retrieval (IR) techniques to narrow the search space. Standard inverted index methods such as TF-IDF

open-domain question answering information retrieval paragraph encoder pretraining sequence-to-sequence model

发现论文，激发创造

领域匹配的密集检索预训练任务

通过在 65 百万个合成问题和 2 亿个来自 Reddit 对话的帖子对大型 bi-encoder 模型进行适当的预训练，可以在信息检索和对话检索基准测试中实现比监督基准线显着更好的表现。

Jul, 2021

实时开放域问答与密集稀疏短语索引

本文提出了一种查询不可知的可索引文档短语表示，该表示可以大大加速开放域问答，并允许我们达到长尾目标。实验证明，该模型的计算成本降低了 6,000 倍，并且比 DrQA 更准确，可以在 CPU 上实现最快 58 倍的端到端推理基准。

Jun, 2019

基于嵌入式大规模检索的预训练任务

本文研究基于嵌入的检索模型，并探究对段落级别的预训练任务在训练强大的嵌入式 Transformer 模型上的关键作用。

Feb, 2020

用于开放式领域问答的密集式检索

本研究展示了如何使用密集向量表示实现开放领域的问答，通过一个简单的双编码框架，通过从一小部分问题和段落中学习嵌入来实现检索，并在多个开放域 QA 基准测试中超越了传统的基于 TF-IDF 或 BM25 的方法，为终端 QA 系统的最新性能奠定了基础。

Apr, 2020

面向语料库的无监督语言模型预训练用于密集文本检索

本文提出了 coCondenser 方法，将 Condenser 预训练架构与无监督语料级对比损失相结合，减轻了密集检索器对大规模训练数据和数据工程的依赖，并通过实验表明，该方法具有与 RocketQA 相当的性能。

Aug, 2021

大规模学习短语的密集表示

该研究展示了从阅读理解任务的监督学习中学习到短语的密集表示，并使用负采样方法提高性能，能够取代当前依赖于稀疏表示的短语检索模型，实现更好的开放域问答准确性并被用作密集知识库。

Dec, 2020

C-MORE: 通过查询数百万参考文献进行预训练以回答开放领域问题

本文介绍了一种使用维基百科引用构建大规模预训练语料库以满足开放域问答系统的需求的方法，并测试了改进后的 retriever 和 reader 在精确度和 top-20 准确率方面的表现。

Mar, 2022

端到端的神经检索器训练，用于开放领域的问答

本篇论文通过系统地研究检索器的预训练，提出了一种利用反向填空任务和掩盖显著跨度的无监督预训练方法，并在问题 - 上下文对上进行有监督微调的方法。此外还探讨了两种 OpenQA 模型的端对端有监督培训方法，并展示了这些方法在性能方面相对于较小模型的一致性提升。实验结果表明这些方法效果显著优于现有的一些模型。

Jan, 2021

只需要问题：密集式段落检索器训练

ART 是一种新的语料库自动编码方法，用于训练密集检索模型，通过未标注的输入和输出实现了高效的无监督学习，且在不需要标记数据和任务特定的损失的情况下，在多个 QA 检索基准测试中获得了最先进的结果。

Jun, 2022

简单实体中心问题挑战密集检索器

本文主要研究使用 Wikidata 数据构造的 entity-rich questions 在密集检索模型中表现不佳的问题，并探讨了两种解决方案：第一种解决方法是数据扩充无法解决广义化问题，第二种解决方法是更加强大的 passage encoder 有助于使用专门化的问题编码器来更好地适应问题。

Sep, 2021