本研究介绍了一个名为 STREAMINGIR 的新基准,用于评估检索方法对于动态变化语料库(如实时问答)的泛化能力,并比较了双编码器和生成式检索的性能和效率。结果表明,生成式检索在不同程度的监督下表现出不同的性能,但是参数高效的措施可以在某些方面提高其性能并与双编码器的性能和效率具有竞争力。
May, 2023
提出一种新颖的单阶段生成检索模型,将 Amazon 数据集用于训练,结果表明,这种模型能够获得更好的推荐效果和更好的泛化能力以推荐 “冷启动” 物品。
生成检索是使用序列到序列架构,以端到端的方式为给定查询生成相关文档标识符的方法。本文通过研究生成检索的注意力层和预测头,揭示了生成检索与多向量稠密检索在测量文档对查询的相关性时采用相同的框架,并通过实验证明了这些方法在对齐矩阵中的术语匹配上具有相似性。
Mar, 2024
我们提出了一种迭代检索 - 生成的协作框架,该框架可以利用参数化和非参数化知识,帮助找到正确的推理路径,并显著提高大型语言模型的推理能力。实验结果显示我们的方法优于之前的基线模型,在单跳和多跳问答任务上取得了显著的改进。
Oct, 2023
本文对生成式检索技术进行了第一次经验研究,通过使用合成查询作为文档表示进行索引,以及调整内部架构,探索了在不同语料库规模下扩展生成式检索的几个关键点,发现在小规模语料库上生成式检索和最先进的双编码器具有竞争力,但在数百万篇章的大规模语料库上实现可扩展性仍然是一个重要的未解决问题。
本文提出了一种能够同时解决语义差异问题和根据用户历史交互提供个性化语义搜索结果的新方法,将图嵌入、transformer 模型和基于术语的嵌入统一到一个嵌入模型中,同时分享了特征工程、硬负采样策略以及 transformer 模型应用方面的技巧。此个性化检索模型增强了用户的搜索体验,并提高了搜索购买率和网站整体转化率。
Jun, 2023
在大语言模型的时代,应用检索增强生成等技术可以更好地解决开放领域问题回答问题。本文提出了一种通用方便的方法来覆盖更长的上下文,以在开放领域的问答任务中应用。我们的实验证明,在精调后,在两个保留数据集、四个留存数据集和两个上下文学习设置中,性能得到了提高。
Apr, 2024
提出了一个称为 LTRGR 的新框架,结合了生成式检索和经典的学习 - 排序模型,通过使用段落排名损失训练自回归模型,只需要额外的训练步骤即可增强当前的生成式检索系统,并在三个公共数据集上实现了最先进的性能。
本文通过采用两塔架构来建立神经检索模型,并提出了一种新的用于检索的合成数据生成方法,显著优于基于词汇匹配算法的 BM25,并在 5 个测试数据集中平均提高 Recall@1 指标 2.45 个点。
Sep, 2020
本研究提出一种名为 Iter-RetGen 的方法,通过检索和生成的迭代协同作用,以全面地处理检索到的知识并在不受结构约束的情况下实现灵活的生成,而这可以在多跳问答、事实验证和常识推理等任务中实现可比甚至优于现有检索辅助基准的效果,同时减少检索和生成的开销,从而提高了性能。