基于学习的端到端 BM25 查询扩充

May, 2023

BM25 Query Augmentation Learned End-to-End

Xiaoyin Chen, Sam Wiseman

TL;DR通过学习增强和重新加权来改进 BM25 作为信息检索基线的性能，并发现在保留速度的同时改进了其性能。此外，还发现学习到的增强和重新加权可很好地传递到未见过的数据集。

Abstract

Given bm25's enduring competitiveness as an information retrieval baseline, we investigate to what extent it can be even further improved by augmenting and re-weighting its sparse →

bm25 information retrieval query-vector representation augmentation transfer learning

发现论文，激发创造

AugTriever：可扩展的数据增强无监督密集检索

本文提出了无需注释的可扩展伪查询文档对训练方法，包括查询提取和转化查询生成两种。通过使用这些方法，研究展示出比其他方法更好的检索表现。

Dec, 2022

通过数据重要性学习改进检索增强的大型语言模型

通过修剪或重新权重检索语料库，可以提高大型语言模型的性能，无需进行进一步训练。在某些任务中，甚至允许较小的模型（例如 GPT-JT）通过搜索引擎 API 进行扩展，胜过未使用检索增强的 GPT-3.5。此外，我们展示了在实践中可以高效地计算基于多线性扩展的权重（例如，对于包含 1 亿个元素的语料库，计算时间少于十分钟）

Jul, 2023

选择与增强：增强型密集检索知识图增强

使用多任务框架，将文本描述与知识图谱实体相关联，以改进知识图谱的性能，并通过检索模型选择富有信息或高度相关的文本描述来增强实体。实验结果显示，与传统的卷积神经网络相比，使用文本增强的知识图谱方法在链接预测中的 Mean Reciprocal Rank (MRR) 和 Hits@10 分别提高了 5.5% 和 3.5%。

Jul, 2023

利用外部资源提升 T5 重排模型检索效果

本研究使用商业网络搜索引擎和 Wikipedia 检索高质量信息，探究如何增强基于 T5 的重新排名器，并以实证方式展示如何显着改进 T5 基准下的重新排名器在域内和跨领域重新排名任务中的有效性。

Oct, 2022

基于表面的检索降低检索增强语言模型的困惑度

本文通过重新构建语义检索机制以 surface-level 方法代替 BM25 方法，成功降低语言模型 perplexity 并提高性能。

May, 2023

基于嵌入的零样本检索通过查询生成

本文通过采用两塔架构来建立神经检索模型，并提出了一种新的用于检索的合成数据生成方法，显著优于基于词汇匹配算法的 BM25，并在 5 个测试数据集中平均提高 Recall@1 指标 2.45 个点。

Sep, 2020

权重学习：一种针对广告检索的代价敏感方法

本文研究基于点击数据的检索模型，探讨在训练集中引入或忽略长尾查询 - 文档对的影响，提出了一种基于加权的策略用于学习长尾语义表示，并在必应赞助搜索和亚马逊产品推荐上进行实验。在线 A/B 测试结果显示，相比于不加权模型，点击率提高了 11.8％，反弹率降低了 8.2％，同时在亚马逊产品推荐数据上也略有提高。

Nov, 2018

关于知识增强数据对词向量嵌入的影响

本文研究了一种通过数据增强注入语言知识以改善单词嵌入的方法，并对其对词嵌入的内在特征和下游文本分类任务的影响进行了系统评估。

Oct, 2020

探索代码搜索中的表示层增广

本研究提出了一种在表示级别进行数据增强的方法来提高代码搜索模型的性能，其中包括三种新的增强方法，并理论和实验评估了这些方法的优势。

Oct, 2022

面向可扩展嵌入式检索的逐步优化的双粒度文档表示

通过生物粒度文档表示法、稀疏嵌入与压缩感知量化等技术，采用基于深度学习的文档表示和 ANN 搜索技术，设计 Progressive Optimization 框架，实现了大规模的 EB 检索，并在百万级和百亿级的数据集上分别实现了高达 +4.3% 到 +17.5% 的提高检出率，同时在一个搜索平台上实现了较大的回报、回忆和 CTR 这些度量方面的提升。

Jan, 2022