ControlRetriever: 利用指令的威力实现可控检索
本文介绍如何使用多任务指令调整来开发一般用途基于任务感知的检索系统,并且引入了包含 40 个使用指令的检索数据集 BERRI 和在其上使用指令训练的多任务检索系统 TART。此外,本文还引入了一个新的评估环境 X ^ 2-Retrieval,其中 TART 在广泛领域和任务汇集的情况下,在用户意图对齐的情况下显著优于竞争基线。
Nov, 2022
提出一种新的基准测试模型 INSTRUCTIR,专门设计用于评估信息检索任务中的指令遵循能力。通过实验分析,观察到调整了任务风格指令的检索器在性能上可能不如未调整的对照组,凸显了在构建现有的指令感知检索数据集上训练检索器时存在的过度拟合问题。
Feb, 2024
ChatRetriever 是一个通过对比学习调整的对话式检索模型,能够准确解读用户意图并表示复杂对话会话,通过在高质量对话指令数据上进行掩码训练进一步提升对话理解,实验证明在五个对话式检索基准上 ChatRetriever 显著优于现有模型,在复杂对话上表现出卓越的鲁棒性,展示了适应 LLM 的潜力并推进了对话式检索研究的发展方向。
Apr, 2024
信息检索一直是信息检索研究的重点之一。近年来,提出了 Dense Retrieval(DR)技术来缓解诸如词汇不匹配问题等固有缺陷,但是绝大多数现有 DR 模型的培训都依赖于从语料库中抽样负实例来优化成对损失函数,即不公平的样本,因此提出了 Learning To Retrieve(LTRe)培训技术, 它通过预先构建文档索引,并在每个培训迭代中在没有负样本采样的情况下执行全检索,从而在整个语料库中检索相关文档,实验表明,LTRe 在有效性方面明显优于所有有竞争力的稀疏和密集基线。它甚至在合理的延迟限制下比 BM25-BERT 级联系统表现更好。
Oct, 2020
在线平台中重要的目标是促进内容发现,然而,机器学习搜索引擎存在较高的检索偏差,我们提出了一种生成查询的方法,旨在改善训练数据和查询分布对检索能力的负面影响。在音乐、播客和图书等领域的数据集上,使用 CtrlQGen 明显减少了密集检索模型的可检索性偏差。
Mar, 2023
本文介绍了一个多任务学习的神经检索模型,该模型在少样本、领域内外多种问题下表现良好,能够有效地检索到相关上下文信息,并且在多个基准测试中实现了与或优于目前的最新技术结果。
Jan, 2021
现代大型语言模型具备跟随长而复杂的指令以完成各种用户任务的能力。本研究引入了数据集 FollowIR,其中包含了严格的指令评估基准以及用于帮助信息检索模型学习更好地遵循真实世界指令的训练集。我们的结果表明现有的检索模型未能正确地使用指令,只是简单地使用关键词,并且难以理解长篇信息。然而,我们展示了信息检索模型学习遵循复杂指令的可能性:我们的新模型 FollowIR-7B 在我们的训练集上经过微调后有显著的改进(超过 13%)。
Mar, 2024
本文提出了一种新的框架,通过训练密集检索器来识别高质量的上下文示例,进而提高大型语言模型(LLMs)的上下文学习表现。实验证明了该框架可以显著地提高在各种任务上的性能,而且具有良好的泛化能力。
Jul, 2023
压缩源文件并以(可能会有损失的)矢量表示的密集检索器将所保存的信息与丢失的信息相比,并分析其对下游任务的影响。通过在带有 25 个随机初始化的 MultiBERT 检查点上训练的 MultiContrievers,我们对密集检索器捕获的信息进行了第一次分析。通过信息论探测,我们测量了从类似维基百科的文件的 Contriever 矢量中是否可以提取特定信息,如性别和职业。我们还研究了提取性与性能和性别偏见之间的关系,以及这些结果对随机初始化和数据洗牌的敏感性。我们发现:(1)Contriever 模型的提取性明显增加,但提取性通常与基准性能相关性较差;(2)存在性别偏见,但不是由 Contriever 表示引起的;(3)对随机初始化和数据洗牌的敏感性较高,因此未来的检索研究应该在更广泛的范围内进行测试。
Feb, 2024