基于学习的端到端 BM25 查询扩充
本文提出了无需注释的可扩展伪查询文档对训练方法,包括查询提取和转化查询生成两种。通过使用这些方法,研究展示出比其他方法更好的检索表现。
Dec, 2022
通过修剪或重新权重检索语料库,可以提高大型语言模型的性能,无需进行进一步训练。在某些任务中,甚至允许较小的模型(例如 GPT-JT)通过搜索引擎 API 进行扩展,胜过未使用检索增强的 GPT-3.5。此外,我们展示了在实践中可以高效地计算基于多线性扩展的权重(例如,对于包含 1 亿个元素的语料库,计算时间少于十分钟)
Jul, 2023
使用多任务框架,将文本描述与知识图谱实体相关联,以改进知识图谱的性能,并通过检索模型选择富有信息或高度相关的文本描述来增强实体。实验结果显示,与传统的卷积神经网络相比,使用文本增强的知识图谱方法在链接预测中的 Mean Reciprocal Rank (MRR) 和 Hits@10 分别提高了 5.5% 和 3.5%。
Jul, 2023
本研究使用商业网络搜索引擎和 Wikipedia 检索高质量信息,探究如何增强基于 T5 的重新排名器,并以实证方式展示如何显着改进 T5 基准下的重新排名器在域内和跨领域重新排名任务中的有效性。
Oct, 2022
本文通过采用两塔架构来建立神经检索模型,并提出了一种新的用于检索的合成数据生成方法,显著优于基于词汇匹配算法的 BM25,并在 5 个测试数据集中平均提高 Recall@1 指标 2.45 个点。
Sep, 2020
本文研究基于点击数据的检索模型,探讨在训练集中引入或忽略长尾查询 - 文档对的影响,提出了一种基于加权的策略用于学习长尾语义表示,并在必应赞助搜索和亚马逊产品推荐上进行实验。在线 A/B 测试结果显示,相比于不加权模型,点击率提高了 11.8%,反弹率降低了 8.2%,同时在亚马逊产品推荐数据上也略有提高。
Nov, 2018
通过生物粒度文档表示法、稀疏嵌入与压缩感知量化等技术,采用基于深度学习的文档表示和 ANN 搜索技术,设计 Progressive Optimization 框架,实现了大规模的 EB 检索,并在百万级和百亿级的数据集上分别实现了高达 +4.3% 到 +17.5% 的提高检出率,同时在一个搜索平台上实现了较大的回报、回忆和 CTR 这些度量方面的提升。
Jan, 2022