ControlRetriever: 利用指令的威力实现可控检索

Aug, 2023

ControlRetriever: 利用指令的威力实现可控检索

ControlRetriever: Harnessing the Power of Instructions for Controllable Retrieval

Kaihang Pan, Juncheng Li, Hongye Song, Hao Fei, Wei Ji...

TL;DR使用控制器架构的 ControlRetriever，通过自然语言中提供的特定检索意图，解决了密集检索模型在不同检索任务中表现不佳的问题，同时结合大型语言模型的发展，提出了一种新的策略来迭代地训练 ControlRetriever，经过大量实验证明其在多个检索任务上显著优于基线方法，并取得了最先进的零 - shot 性能。

Abstract

Recent studies have shown that dense retrieval models, lacking dedicated training data, struggle to perform well across diverse retrieval tasks, as different →

dense retrieval models controlretriever retrieval tasks text-to-image generation llm guided instruction synthesizing

发现论文，激发创造

具有任务感知的检索与指令

本文介绍如何使用多任务指令调整来开发一般用途基于任务感知的检索系统，并且引入了包含 40 个使用指令的检索数据集 BERRI 和在其上使用指令训练的多任务检索系统 TART。此外，本文还引入了一个新的评估环境 X ^ 2-Retrieval，其中 TART 在广泛领域和任务汇集的情况下，在用户意图对齐的情况下显著优于竞争基线。

Nov, 2022

INSTRUCTIR: 信息检索模型执行指令遵循的基准

提出一种新的基准测试模型 INSTRUCTIR，专门设计用于评估信息检索任务中的指令遵循能力。通过实验分析，观察到调整了任务风格指令的检索器在性能上可能不如未调整的对照组，凸显了在构建现有的指令感知检索数据集上训练检索器时存在的过度拟合问题。

Feb, 2024

聊天检索器：将大型语言模型用于通用和鲁棒的对话密集检索

ChatRetriever 是一个通过对比学习调整的对话式检索模型，能够准确解读用户意图并表示复杂对话会话，通过在高质量对话指令数据上进行掩码训练进一步提升对话理解，实验证明在五个对话式检索基准上 ChatRetriever 显著优于现有模型，在复杂对话上表现出卓越的鲁棒性，展示了适应 LLM 的潜力并推进了对话式检索研究的发展方向。

Apr, 2024

逐步学习上下文环境中的迭代检索

通过强化学习的训练过程，我们引入了迭代检索的新框架，将活跃检索器赋予迭代决策的能力，并在选择上下文学习示例时在语义解析任务中表现优于之前的方法。

Jun, 2024

学习检索：如何有效高效地训练密集检索模型

信息检索一直是信息检索研究的重点之一。近年来，提出了 Dense Retrieval（DR）技术来缓解诸如词汇不匹配问题等固有缺陷，但是绝大多数现有 DR 模型的培训都依赖于从语料库中抽样负实例来优化成对损失函数，即不公平的样本，因此提出了 Learning To Retrieve（LTRe）培训技术，它通过预先构建文档索引，并在每个培训迭代中在没有负样本采样的情况下执行全检索，从而在整个语料库中检索相关文档，实验表明，LTRe 在有效性方面明显优于所有有竞争力的稀疏和密集基线。它甚至在合理的延迟限制下比 BM25-BERT 级联系统表现更好。

Oct, 2020

通过可控的查询生成提高搜索中的内容可检索性

在线平台中重要的目标是促进内容发现，然而，机器学习搜索引擎存在较高的检索偏差，我们提出了一种生成查询的方法，旨在改善训练数据和查询分布对检索能力的负面影响。在音乐、播客和图书等领域的数据集上，使用 CtrlQGen 明显减少了密集检索模型的可检索性偏差。

Mar, 2023

知识密集型任务的多任务检索

本文介绍了一个多任务学习的神经检索模型，该模型在少样本、领域内外多种问题下表现良好，能够有效地检索到相关上下文信息，并且在多个基准测试中实现了与或优于目前的最新技术结果。

Jan, 2021

FollowIR: 评估和教授信息检索模型遵循指导

现代大型语言模型具备跟随长而复杂的指令以完成各种用户任务的能力。本研究引入了数据集 FollowIR，其中包含了严格的指令评估基准以及用于帮助信息检索模型学习更好地遵循真实世界指令的训练集。我们的结果表明现有的检索模型未能正确地使用指令，只是简单地使用关键词，并且难以理解长篇信息。然而，我们展示了信息检索模型学习遵循复杂指令的可能性：我们的新模型 FollowIR-7B 在我们的训练集上经过微调后有显著的改进（超过 13%）。

Mar, 2024

大语言模型中上下文案例检索学习

本文提出了一种新的框架，通过训练密集检索器来识别高质量的上下文示例，进而提高大型语言模型（LLMs）的上下文学习表现。实验证明了该框架可以显著地提高在各种任务上的性能，而且具有良好的泛化能力。

Jul, 2023

多国检索器：密集检索表示分析

压缩源文件并以（可能会有损失的）矢量表示的密集检索器将所保存的信息与丢失的信息相比，并分析其对下游任务的影响。通过在带有 25 个随机初始化的 MultiBERT 检查点上训练的 MultiContrievers，我们对密集检索器捕获的信息进行了第一次分析。通过信息论探测，我们测量了从类似维基百科的文件的 Contriever 矢量中是否可以提取特定信息，如性别和职业。我们还研究了提取性与性能和性别偏见之间的关系，以及这些结果对随机初始化和数据洗牌的敏感性。我们发现：（1）Contriever 模型的提取性明显增加，但提取性通常与基准性能相关性较差；（2）存在性别偏见，但不是由 Contriever 表示引起的；（3）对随机初始化和数据洗牌的敏感性较高，因此未来的检索研究应该在更广泛的范围内进行测试。

Feb, 2024