面向语料库的无监督语言模型预训练用于密集文本检索
本研究展示了如何使用密集向量表示实现开放领域的问答,通过一个简单的双编码框架,通过从一小部分问题和段落中学习嵌入来实现检索,并在多个开放域QA基准测试中超越了传统的基于TF-IDF或BM25的方法,为终端QA系统的最新性能奠定了基础。
Apr, 2020
本研究对Karpukhin等人于2020年提出的基于稠密编码的全域问答模型(DPR)进行了复制研究,其中发现原作者低估了BM25基准检索的有效性。我们通过改进的答案跨度评分技术,使用与原论文相同的模型获得更好的端到端问题答案准确性。
Apr, 2021
介绍了一种称为Salient Phrase Aware Retriever (SPAR)的密集型检索器,在保留稀疏模型的词法匹配能力的同时,通过加入类似于稀疏模型的词汇模型Lambda来提高其检索性能。SPAR在多个任务上表现出卓越性能,包括问答数据集,MS MARCO段落检索以及EntityQuestions和BEIR评估。
Oct, 2021
本文介绍一种无监督训练的密集感知器,使用对比学习 (contrastive learning) 的方法,提高了信息检索的性能,并在多语言检索中表现出强大的跨语言转移能力。
Dec, 2021
本研究探讨了如何通过有效验证缩小训练与检索之间的差距并提高稠密检索的性能,在密集短语检索中取得了2~3个关键短语检索准确度和2~4个段落检索准确度的提升。
Oct, 2022
信息检索中的全面检索方法被应用于大型语言模型的前提学习中,这些检索方法早期用于经典应用,但近期多用于异构且严格的应用,需要改进小K值的检索。我们提出了一种改进的密集检索方法,通过学习预训练嵌入的低秩残差适应来实现任务特定、异构且严格的检索,并在实验证明我们的方法相比于基于通用嵌入的基线有所改进。
Oct, 2023
本研究解决了传统检索模型在领域准确性和推广能力方面的不足,通过对多种检索任务的全面实证研究,评估了大型语言模型(LLMs)的性能。研究发现,较大的模型和广泛的预训练能够持续提升领域准确性和数据有效性,并在零样本推广和多任务学习等方面展现出显著潜力,这为未来相关领域的研究与开发提供了重要见解。
Aug, 2024
本研究针对传统检索模型在特定领域的准确性和泛化能力不足的问题,采用大型语言模型(LLMs)进行评估,探讨其在密集检索中的独特优势。研究结果表明,较大的模型和更长的预训练时间能够显著提高领域内准确性和数据效率,同时在零样本泛化、长检索等多任务学习中具有重要潜力,这为未来的研究和开发提供了有价值的见解。
Aug, 2024
本研究解决了密集检索系统对标注数据的依赖问题,提出了一种通过指令调优的预训练编码器-解码器大语言模型进行无监督文本表示学习的新方法。研究表明,通过生成相关的合成查询,可以增强语料库表示,从而在低资源设置下显著改善零-shot检索性能。
Sep, 2024