具有任务感知的检索与指令
提出一种新的基准测试模型 INSTRUCTIR,专门设计用于评估信息检索任务中的指令遵循能力。通过实验分析,观察到调整了任务风格指令的检索器在性能上可能不如未调整的对照组,凸显了在构建现有的指令感知检索数据集上训练检索器时存在的过度拟合问题。
Feb, 2024
使用控制器架构的 ControlRetriever,通过自然语言中提供的特定检索意图,解决了密集检索模型在不同检索任务中表现不佳的问题,同时结合大型语言模型的发展,提出了一种新的策略来迭代地训练 ControlRetriever,经过大量实验证明其在多个检索任务上显著优于基线方法,并取得了最先进的零 - shot 性能。
Aug, 2023
任务感知课程规划的指导下,使用动态难度调整的多轮精馏框架 TAPIR 提供平衡的任务分布,通过升级难度水平逐步提升学生 LLM 的能力,并经过两个广泛认可的基准测试验证,结果表明使用我们的方法及较少的训练数据训练的学生 LLMs 在复杂任务中(如逻辑推理和代码生成)优于较大的经过指导调整的模型和强大的精馏基准线。
May, 2024
通过将推理任务转换为检索任务,我们发现,即使没有针对推理级别的语言理解进行专门训练,目前最先进的检索模型在协助 LLMs 的角色上可能仍然远离胜任,特别是在推理密集型任务中。然而,最近基于解码器的嵌入模型在弥合这一差距方面表现出巨大潜力,突显了嵌入模型实现推理级别语言理解的路径。通过微调重新排序模型将推理能力注入其中似乎比对双编码器进行类似操作更容易,我们能够在所有任务中通过微调重新排序模型实现最先进的性能。我们发布由整体任务和设置组成的推理作为检索基准(RAR-b),用于评估检索模型中存储的推理能力。
Apr, 2024
探索了检索增强的指示调节(RA-IT)方法在信息抽取领域的应用,特别关注开放式命名实体识别任务,通过从训练数据集中检索语义相似的例子作为上下文,并将其前置到原始指示的输入中,验证了 RA-IT 方法在不同数据规模和中英文情景下的有效性。
Jun, 2024
现代大型语言模型具备跟随长而复杂的指令以完成各种用户任务的能力。本研究引入了数据集 FollowIR,其中包含了严格的指令评估基准以及用于帮助信息检索模型学习更好地遵循真实世界指令的训练集。我们的结果表明现有的检索模型未能正确地使用指令,只是简单地使用关键词,并且难以理解长篇信息。然而,我们展示了信息检索模型学习遵循复杂指令的可能性:我们的新模型 FollowIR-7B 在我们的训练集上经过微调后有显著的改进(超过 13%)。
Mar, 2024
对于信息检索 (IR) 模型通常假设为同质化格式,限制了其适用于各种用户需求,如使用文本描述搜索图片,使用标题图搜索新闻文章或使用查询图搜索相似照片。为了满足这种不同的信息需求,我们引入了 UniIR,一种统一的指令引导多模态检索器,可以处理八个不同的跨模态检索任务。UniIR 是一个单一的检索系统,同时在十个不同的多模态 - IR 数据集上进行训练,解释用户指令来执行各种检索任务,展示了对现有数据集的鲁棒性能以及对新任务的零 - shot 泛化能力。我们的实验突出了多任务训练和指令调整是 UniIR 泛化能力的关键。此外,我们构建了 M-BEIR,一个综合结果的多模态检索基准,用于标准化通用多模态信息检索的评估。
Nov, 2023
本研究探索指令调优提高大型语言模型在信息检索任务中的能力,并引入了一个新的指令调优数据集,INTER,涵盖了查询理解、文档理解和查询 - 文档关系理解三个基本 IR 类别的 21 个任务。实证结果表明,INTER 显著提高了公开可用的 LLMs(如 LLaMA、Mistral 和 Phi)在搜索相关任务中的性能。
Jan, 2024
通过检索进行预先训练的大型语言模型在困惑度和事实准确性方面表现更好,但现有预先训练的检索增强语言模型的规模仍然受限,因此限制了指导调整和零样本泛化的效果。我们提出了 Retro 48B,这是在指导调整之前预先训练的最大语言模型,通过从 1.2 万亿令牌中检索继续对 43B GPT 模型进行额外的 1000 亿令牌的预训练。Retro 48B 在困惑度方面在很大程度上优于原始的 43B GPT。在 Retro 上进行指导调整后,InstructRetro 在零样本问答任务上明显优于指导调整的 GPT。此外,我们发现可以剔除 InstructRetro 架构中的编码器,直接使用其解码器骨干,同时获得可比较的结果。预先训练与检索使其解码器在问答中更好地融入上下文,为获取更好的 GPT 解码器指明了有希望的方向。
Oct, 2023