Apr, 2024

RAR-b: 推理作为检索的基准

TL;DR通过将推理任务转换为检索任务,我们发现,即使没有针对推理级别的语言理解进行专门训练,目前最先进的检索模型在协助 LLMs 的角色上可能仍然远离胜任,特别是在推理密集型任务中。然而,最近基于解码器的嵌入模型在弥合这一差距方面表现出巨大潜力,突显了嵌入模型实现推理级别语言理解的路径。通过微调重新排序模型将推理能力注入其中似乎比对双编码器进行类似操作更容易,我们能够在所有任务中通过微调重新排序模型实现最先进的性能。我们发布由整体任务和设置组成的推理作为检索基准(RAR-b),用于评估检索模型中存储的推理能力。