基于嵌入的零样本检索通过查询生成

Sep, 2020

基于嵌入的零样本检索通过查询生成

Embedding-based Zero-shot Retrieval through Query Generation

Davis Liang, Peng Xu, Siamak Shakeri, Cicero Nogueira dos Santos, Ramesh Nallapati...

TL;DR本文通过采用两塔架构来建立神经检索模型，并提出了一种新的用于检索的合成数据生成方法，显著优于基于词汇匹配算法的 BM25，并在 5 个测试数据集中平均提高 Recall@1 指标 2.45 个点。

Abstract

passage retrieval addresses the problem of locating relevant passages, usually from a large corpus, given a query. In practice, lexical term-matching algorithms like BM25 are popular choices for retrieval owing to their

passage retrieval neural retrieval model synthetic training data efficiency lexical term-matching algorithms

发现论文，激发创造

领域定向合成问题生成进行零样本神经网络段落检索

通过合成问题生成技术缩小了零样本训练模型与基于术语技术模型之间的差距，提高了针对特定领域的文档的检索效果。

Apr, 2020

用于开放式领域问答的密集式检索

本研究展示了如何使用密集向量表示实现开放领域的问答，通过一个简单的双编码框架，通过从一小部分问题和段落中学习嵌入来实现检索，并在多个开放域 QA 基准测试中超越了传统的基于 TF-IDF 或 BM25 的方法，为终端 QA 系统的最新性能奠定了基础。

Apr, 2020

HYRR: 棱柱式混合再排序用于段落检索

本文提出了一种基于 BM25 和神经检索模型的混合模型的 HYRR 框架，用于训练 reranker，并使用交叉注意力神经模型来建立一个稳健的重排模型。在 MS MARCO 和 BEIR 数据集上的实验结果表明，该模型在监督式和零样本检索任务上表现良好。

Dec, 2022

利用零样本问题生成技术提升段落检索效果

本文提出一种简单有效的重新排序方法，利用预训练语言模型计算与检索的段落之间的关联度，从而提高开放式问题回答中的检索效果，并在多个数据集上进行了评估和实验，使得无监督和有监督的模型的检索准确率分别提高了 6-18% 和 12%。

Apr, 2022

利用生成模型结合段落检索进行开放域问答

研究使用生成模型在开放领域问答中的表现，发现利用文本段落检索可以显著提高性能，证明生成模型擅长聚合和组合多个段落的证据，同时在 Natural Questions 和 TriviaQA 开放式基准测试中取得最好的结果。

Jul, 2020

面向交谈式搜索的上下文化查询嵌入

本文以学习到的密集表示为基础，描述了一种紧凑而有效的模型，用于对话搜索中的低延迟段落检索。通过将对话查询重构直接整合到密集检索模型中，我们提出了一种新方法来解决现有流程的问题。在构建具有伪相关性标签的数据集的基础上，证明了该模型可用于会话检索和开放域问答数据集，最后通过改进的检索模型学习到的特性，支持混合检索和错误分析。

Apr, 2021

上下文生成检索

提出了一种上下文生成检索模型，其在生成式检索模型的解码步骤中使用上下文嵌入，结合了双编码器方法和生成式检索模型的优点，显示出比只有普通嵌入的情况更高的性能。

Oct, 2022

生成式检索在百万篇章上的可扩展性？

本文对生成式检索技术进行了第一次经验研究，通过使用合成查询作为文档表示进行索引，以及调整内部架构，探索了在不同语料库规模下扩展生成式检索的几个关键点，发现在小规模语料库上生成式检索和最先进的双编码器具有竞争力，但在数百万篇章的大规模语料库上实现可扩展性仍然是一个重要的未解决问题。

May, 2023

Etsy 搜索中基于统一嵌入的个性化检索

本文提出了一种能够同时解决语义差异问题和根据用户历史交互提供个性化语义搜索结果的新方法，将图嵌入、transformer 模型和基于术语的嵌入统一到一个嵌入模型中，同时分享了特征工程、硬负采样策略以及 transformer 模型应用方面的技巧。此个性化检索模型增强了用户的搜索体验，并提高了搜索购买率和网站整体转化率。

Jun, 2023

生物医学问答中的前 K 个相关片段检索

我们在临床领域中通过对现有 DPR 框架的改进，从可靠的 Pubmed 文章中检索答案，使其在 BioASQ QA 数据集上的评估结果为 0.81 的 F1 得分。

Aug, 2023