零样本稠密检索的全面探讨
选择在没有标签可用的新收集中搜索时使用的密集检索模型是一个重要而困难的问题,因为不同的密集检索模型在不同数据集上的搜索效果差异很大。我们建议信息检索社区考虑这个问题,并提供在无需标签进行评估的零样本设置中选择高效密集检索模型的可靠方法。
Sep, 2023
本文提出 FewDR 数据集和统一评估基准,并消除了现有方法中出现的一些问题。经实证结果表明,当前最先进的 DR 模型仍然在标准 few-shot 场景中面临挑战。
Apr, 2023
本文探讨了基于预训练语言模型的致密检索方法,并提供了在低资源情境下实现致密检索的主流技术概览,根据技术需要的资源将其分为文档、文档和问题,以及文档和问题答案对三个类别,并对每个技术的算法、开放问题和优缺点进行了介绍和总结,最后提出了未来研究的方向。
Aug, 2022
本文提出了一种基于预训练语言模型的检索方法,通过利用领域中已有的实体信息来实现领域内检索。实验结果表明,在如 Wikipedia 等领域中,本文提出的检索方法在实体相关问题上的效果要优于传统的 DPR 方法,并且可以在不进行微调的情况下有效利用预训练语言模型的知识资源,从而在实体名称包含常用词的情况下表现出比 BM25 更好的性能。
Mar, 2023
本文介绍了近期基于 PLMs 的 dense retrieval 的相关研究进展,从架构、训练、索引、集成四个方面总结了主流技术,并提供了网站和代码库等丰富资源以支持读者的研究工作。
Nov, 2022
本研究表明,在信息检索任务中,经过裁剪的小型语言模型是大型、速度慢得多的模型的强有力竞争者。在信息检索实际应用中,由于延迟限制,压缩和稠密模型成为首选。然而,通过实验,我们发现模型大小和早期查询文档交互对检索模型的泛化能力起着重要作用。增加模型大小在相同领域的测试数据集上几乎没有增益,但在从未在训练中见过的新领域上存在更大的提高。此外,我们还显示 reranker 在几个任务中大大优于其大小相似的稠密模型。我们的最大 reranker 在 Benchmark-IR(BEIR)的 18 个数据集中的 12 个数据集中达到了最先进水平,平均超过了以前的最优结果 3 个点。最后,我们证实,域内有效性不是零 - shot 有效性的好指标。
Jun, 2022
提出了一种新的零样本稠密检索方法 COCO-DR,通过对抗源训练任务和目标场景之间的分布转移来提高稠密检索的泛化能力,使用连续对比学习在目标文本上对语言模型进行预训练以适应目标分布,通过基于分布的鲁棒优化重要样本,在未见过的目标查询上优化模型,COCO-DR 在零样本检索基准 BEIR 上获得了优异表现,其代码和模型可以在指定的网址找到。
Oct, 2022
信息检索一直是信息检索研究的重点之一。近年来,提出了 Dense Retrieval(DR)技术来缓解诸如词汇不匹配问题等固有缺陷,但是绝大多数现有 DR 模型的培训都依赖于从语料库中抽样负实例来优化成对损失函数,即不公平的样本,因此提出了 Learning To Retrieve(LTRe)培训技术, 它通过预先构建文档索引,并在每个培训迭代中在没有负样本采样的情况下执行全检索,从而在整个语料库中检索相关文档,实验表明,LTRe 在有效性方面明显优于所有有竞争力的稀疏和密集基线。它甚至在合理的延迟限制下比 BM25-BERT 级联系统表现更好。
Oct, 2020
通过数据增强、对比学习等方法,本研究提出了一种新的稠密检索算法 DRAGON,使其在有监督检索和零样本检索方面均达到了最新水平,并与复杂的后期交互模型竞争。
Feb, 2023
使用 NLP 和多模式学习,该论文介绍了如何通过搜索引擎检索来增强预训练模型,从而在测试时从互联网中检索到有用的数据,并更新模型以解决模型的不确定性,取得了零样本性能的显著改进。
Nov, 2023