LaPraDoR:无监督的预训练密集型检索器用于零样例文本检索
本研究提出一种基于知识蒸馏的方法,将富有知识的词典嵌入模型对齐到密集检索模型中,从而在第一阶段检索中取得稳定且显著的提高。在三组公开数据集上的实验证明了该模型的有效性,并且与标准排名器蒸馏相结合可以进一步提高检索效果。
Aug, 2022
LADR 是一种简单而有效的方法,通过利用词法检索技术来提高现有的密集检索模型的效率,同时不影响检索效果,建立了一种新的近似 k 最近邻技术的密集检索效率 - 效果 Pareto 边界。
Jul, 2023
本文提出了 coCondenser 方法,将 Condenser 预训练架构与无监督语料级对比损失相结合,减轻了密集检索器对大规模训练数据和数据工程的依赖,并通过实验表明,该方法具有与 RocketQA 相当的性能。
Aug, 2021
本文提出了无需注释的可扩展伪查询文档对训练方法,包括查询提取和转化查询生成两种。通过使用这些方法,研究展示出比其他方法更好的检索表现。
Dec, 2022
本论文提出了一种名为 UnifieR 的学习框架,它将基于预训练语言模型的密集向量和基于词汇表的检索统一在一个模型中,并在多个基准测试中验证了其有效性和可转移性。
May, 2022
本文介绍一种无监督训练的密集感知器,使用对比学习 (contrastive learning) 的方法,提高了信息检索的性能,并在多语言检索中表现出强大的跨语言转移能力。
Dec, 2021
提出了一种新颖的方法 LLaRA(LLM 适应于密集检索),它作为 LLM 的事后适应工具,用于密集检索应用。LLaRA 包括两个预处理任务:EBAE (基于嵌入的自编码) 和 EBAR (基于嵌入的自回归),其中来自 LLM 的文本嵌入用于重建输入句子的标记并预测下一句的标记。LLaRA 简单、轻量且高效,应用于 LLMaMA-2-7B(基础)模型,在维基百科语料库上大大提升了模型对各种密集检索基准(如 MSMARCO 和 BEIR)的微调性能。
Dec, 2023
通过使用大型语言模型 (LLMs) 生成大量合成的查询,可以在不使用大量标记的数据的情况下,有效地优化实现信息检索任务,同时消除因为领域的转变而导致真实世界应用效力降低的问题。
Mar, 2023
信息检索一直是信息检索研究的重点之一。近年来,提出了 Dense Retrieval(DR)技术来缓解诸如词汇不匹配问题等固有缺陷,但是绝大多数现有 DR 模型的培训都依赖于从语料库中抽样负实例来优化成对损失函数,即不公平的样本,因此提出了 Learning To Retrieve(LTRe)培训技术, 它通过预先构建文档索引,并在每个培训迭代中在没有负样本采样的情况下执行全检索,从而在整个语料库中检索相关文档,实验表明,LTRe 在有效性方面明显优于所有有竞争力的稀疏和密集基线。它甚至在合理的延迟限制下比 BM25-BERT 级联系统表现更好。
Oct, 2020