构建可解释和可靠的新领域开放信息检索器
本文针对欧洲议会选举的数据进行建模,提出了一种基于随机森林和多层感知器神经网络相结合的方法,去完成对选民意向的预测任务,该模型相比其他模型具有更好的预测准确度和稳定性。
May, 2022
本文提出了一种新的 open domain question answering 方法,利用问题 - 回答对来同时学习 retriever 和 reader,将 Wikipedia 中的证据检索视为潜在变量,并通过 Inverse Cloze Task 进行预训练。我们的方法在五个 QA 数据集上进行测试,表明在用户真正寻求答案的数据集上,学习检索至关重要,完全匹配方面的得分比传统的 IR 系统(如 BM25)高达 19 个点。
Jun, 2019
本篇论文提出三个方面的方法,包括新的模型架构、IR 导向的预训练任务、生成大规模训练数据,以解决神经检索器面临的问题,并探讨了多模式查询的未来研究方向和相应的解决方法。
May, 2022
本文提出了一种受到知识蒸馏启发的学习信息检索器的技术,在没有标注的查询和文档对的情况下,利用阅读器模型的注意力分数来获得检索器的合成标签,用于下游任务,最终在问题回答方面达到了最先进的结果。
Dec, 2020
本文介绍了一种信息检索技术,利用最初检索到的证据中存在的实体信息来学习到其他相关证据,并在超过 500 万个维基百科段落的语境下,取得了显着的检索性能提升。此外,检索到的证据还使得现有的 QA 模型(无需任何训练)在 Hotpot 基准测试中 F1 指标提升了 10.59 个点。
Sep, 2019
本文提出了一种检索 - 阅读器模型,该模型能够在回答问题过程中学习关注必要的词语,该模型包括一个选择器来确定问题中最重要的词语,再重新制定查询,搜索相关证据; 和一种增强阅读器来区分必要词语和分心的词语以预测答案,在多个开放域多项选择 QA 数据集上进行了评估,尤其在 AI2 推理挑战(ARC)数据集上达到了业界最高水平。
Aug, 2018
通过最小化词汇匹配问题,扩展增强的稀疏词汇表示改善了信息检索,并通过联合学习密集语义表示并将其与词汇表示结合来对候选信息进行排序的潜力进行了探讨。我们提出了一种混合信息检索机制,通过最大化词汇和语义匹配来最小化它们的缺点。我们的架构由独立编码查询和信息元素的双重混合编码器组成。每个编码器通过对应文本的可对比学习的术语扩展来联合学习密集语义表示和稀疏词汇表示。我们在包含在线产品页面上可用的典型异构信息的基准产品问答数据集上展示了我们模型的有效性。我们的评估表明,我们的混合方法在 MRR@5 分数上比独立训练的检索器提高了 10.95%(稀疏)和 2.7%(密集)。此外,我们的模型在减少响应时间(延迟)30% 和减少计算负载(FLOPs)约 38% 的同时,提供了更好的可解释性,并且表现与最先进的交叉编码器相当。
May, 2024
本篇论文提出了一个新问题:多分布信息检索,介绍了三个基于问题回答和实体匹配的数据集来评估此任务的方法,并提供了简单的一些方法以解决已知领域占用大部分预算的问题,结果表明使用这些方法可以提高 Recall@100。
Jun, 2023
本文主要研究使用 Wikidata 数据构造的 entity-rich questions 在密集检索模型中表现不佳的问题,并探讨了两种解决方案:第一种解决方法是数据扩充无法解决广义化问题,第二种解决方法是更加强大的 passage encoder 有助于使用专门化的问题编码器来更好地适应问题。
Sep, 2021