构建可解释和可靠的新领域开放信息检索器

ACLAug, 2023

构建可解释和可靠的新领域开放信息检索器

Building Interpretable and Reliable Open Information Retriever for New Domains Overnight

Xiaodong Yu, Ben Zhou, Dan Roth

TL;DR提出了一种信息检索管道，利用实体 / 事件链接模型和查询分解模型来更准确地关注查询的不同信息单元，该管道显著提高了对五个信息检索和问答基准的段落覆盖率和指代准确性。由于其卓越的可解释性和跨领域性能，它将成为需要在新领域上执行信息检索而无需大量投入的应用程序的首选系统。

Abstract

information retrieval (IR) or knowledge retrieval, is a critical component for many down-stream tasks such as open-domain question answering (QA). It is also very challenging, as it requires succinctness, completeness, and correctness. In recent works, →

information retrieval dense retrieval models entity/event linking model query decomposition model ir and qa benchmarks

发现论文，激发创造

更好的检索并不一定会导致更好的问答

本文针对欧洲议会选举的数据进行建模，提出了一种基于随机森林和多层感知器神经网络相结合的方法，去完成对选民意向的预测任务，该模型相比其他模型具有更好的预测准确度和稳定性。

May, 2022

弱监督开放域问答的潜在检索

本文提出了一种新的 open domain question answering 方法，利用问题 - 回答对来同时学习 retriever 和 reader，将 Wikipedia 中的证据检索视为潜在变量，并通过 Inverse Cloze Task 进行预训练。我们的方法在五个 QA 数据集上进行测试，表明在用户真正寻求答案的数据集上，学习检索至关重要，完全匹配方面的得分比传统的 IR 系统（如 BM25）高达 19 个点。

Jun, 2019

神经检索器与超越：论文提案

本篇论文提出三个方面的方法，包括新的模型架构、IR 导向的预训练任务、生成大规模训练数据，以解决神经检索器面临的问题，并探讨了多模式查询的未来研究方向和相应的解决方法。

May, 2022

从阅读器向检索器提取知识以作问答之用

本文提出了一种受到知识蒸馏启发的学习信息检索器的技术，在没有标注的查询和文档对的情况下，利用阅读器模型的注意力分数来获得检索器的合成标签，用于下游任务，最终在问题回答方面达到了最先进的结果。

Dec, 2020

多步骤基于实体的信息检索用于多跳问答

本文介绍了一种信息检索技术，利用最初检索到的证据中存在的实体信息来学习到其他相关证据，并在超过 500 万个维基百科段落的语境下，取得了显着的检索性能提升。此外，检索到的证据还使得现有的 QA 模型（无需任何训练）在 Hotpot 基准测试中 F1 指标提升了 10.59 个点。

Sep, 2019

学习关注于主要术语：用于开放领域问答的增强型检索器 - 阅读器模型

本文提出了一种检索 - 阅读器模型，该模型能够在回答问题过程中学习关注必要的词语，该模型包括一个选择器来确定问题中最重要的词语，再重新制定查询，搜索相关证据；和一种增强阅读器来区分必要词语和分心的词语以预测答案，在多个开放域多项选择 QA 数据集上进行了评估，尤其在 AI2 推理挑战（ARC）数据集上达到了业界最高水平。

Aug, 2018

Chain-of-Skills: 一个可配置的开放领域问答模型

本研究提出了一种模块化召回器，使用自监督预训练和多个开放领域问题回答数据集的微调，实现了最先进的检索性能。

May, 2023

产品问答中高效易于解释的异构数据信息检索

通过最小化词汇匹配问题，扩展增强的稀疏词汇表示改善了信息检索，并通过联合学习密集语义表示并将其与词汇表示结合来对候选信息进行排序的潜力进行了探讨。我们提出了一种混合信息检索机制，通过最大化词汇和语义匹配来最小化它们的缺点。我们的架构由独立编码查询和信息元素的双重混合编码器组成。每个编码器通过对应文本的可对比学习的术语扩展来联合学习密集语义表示和稀疏词汇表示。我们在包含在线产品页面上可用的典型异构信息的基准产品问答数据集上展示了我们模型的有效性。我们的评估表明，我们的混合方法在 MRR@5 分数上比独立训练的检索器提高了 10.95%（稀疏）和 2.7%（密集）。此外，我们的模型在减少响应时间（延迟）30% 和减少计算负载（FLOPs）约 38% 的同时，提供了更好的可解释性，并且表现与最先进的交叉编码器相当。

May, 2024

多分布密集型信息检索的资源和评估

本篇论文提出了一个新问题：多分布信息检索，介绍了三个基于问题回答和实体匹配的数据集来评估此任务的方法，并提供了简单的一些方法以解决已知领域占用大部分预算的问题，结果表明使用这些方法可以提高 Recall@100。

Jun, 2023

简单实体中心问题挑战密集检索器

本文主要研究使用 Wikidata 数据构造的 entity-rich questions 在密集检索模型中表现不佳的问题，并探讨了两种解决方案：第一种解决方法是数据扩充无法解决广义化问题，第二种解决方法是更加强大的 passage encoder 有助于使用专门化的问题编码器来更好地适应问题。

Sep, 2021