基于嵌入的零样本检索通过查询生成
本研究展示了如何使用密集向量表示实现开放领域的问答,通过一个简单的双编码框架,通过从一小部分问题和段落中学习嵌入来实现检索,并在多个开放域 QA 基准测试中超越了传统的基于 TF-IDF 或 BM25 的方法,为终端 QA 系统的最新性能奠定了基础。
Apr, 2020
本文提出了一种基于 BM25 和神经检索模型的混合模型的 HYRR 框架,用于训练 reranker,并使用交叉注意力神经模型来建立一个稳健的重排模型。在 MS MARCO 和 BEIR 数据集上的实验结果表明,该模型在监督式和零样本检索任务上表现良好。
Dec, 2022
本文提出一种简单有效的重新排序方法,利用预训练语言模型计算与检索的段落之间的关联度,从而提高开放式问题回答中的检索效果,并在多个数据集上进行了评估和实验,使得无监督和有监督的模型的检索准确率分别提高了 6-18% 和 12%。
Apr, 2022
研究使用生成模型在开放领域问答中的表现,发现利用文本段落检索可以显著提高性能,证明生成模型擅长聚合和组合多个段落的证据,同时在 Natural Questions 和 TriviaQA 开放式基准测试中取得最好的结果。
Jul, 2020
本文以学习到的密集表示为基础,描述了一种紧凑而有效的模型,用于对话搜索中的低延迟段落检索。 通过将对话查询重构直接整合到密集检索模型中,我们提出了一种新方法来解决现有流程的问题。 在构建具有伪相关性标签的数据集的基础上,证明了该模型可用于会话检索和开放域问答数据集,最后通过改进的检索模型学习到的特性,支持混合检索和错误分析。
Apr, 2021
本文对生成式检索技术进行了第一次经验研究,通过使用合成查询作为文档表示进行索引,以及调整内部架构,探索了在不同语料库规模下扩展生成式检索的几个关键点,发现在小规模语料库上生成式检索和最先进的双编码器具有竞争力,但在数百万篇章的大规模语料库上实现可扩展性仍然是一个重要的未解决问题。
May, 2023
本文提出了一种能够同时解决语义差异问题和根据用户历史交互提供个性化语义搜索结果的新方法,将图嵌入、transformer 模型和基于术语的嵌入统一到一个嵌入模型中,同时分享了特征工程、硬负采样策略以及 transformer 模型应用方面的技巧。此个性化检索模型增强了用户的搜索体验,并提高了搜索购买率和网站整体转化率。
Jun, 2023
我们在临床领域中通过对现有 DPR 框架的改进,从可靠的 Pubmed 文章中检索答案,使其在 BioASQ QA 数据集上的评估结果为 0.81 的 F1 得分。
Aug, 2023