构建更好的基于大型语言模型的稠密检索模型

Dec, 2023

构建更好的基于大型语言模型的稠密检索模型

Making Large Language Models A Better Foundation For Dense Retrieval

Chaofan Li, Zheng Liu, Shitao Xiao, Yingxia Shao

TL;DR提出了一种新颖的方法LLaRA（LLM适应于密集检索），它作为LLM的事后适应工具，用于密集检索应用。LLaRA包括两个预处理任务：EBAE (基于嵌入的自编码)和EBAR (基于嵌入的自回归)，其中来自LLM的文本嵌入用于重建输入句子的标记并预测下一句的标记。LLaRA简单、轻量且高效，应用于LLMaMA-2-7B（基础）模型，在维基百科语料库上大大提升了模型对各种密集检索基准（如MSMARCO和BEIR）的微调性能。

Abstract

dense retrieval needs to learn discriminative text embeddings to represent the semantic relationship between query and document. It may benefit from the using of large →

发现论文，激发创造

面向大规模检索的词库增强密集检索器(LED)

本研究提出一种基于知识蒸馏的方法，将富有知识的词典嵌入模型对齐到密集检索模型中，从而在第一阶段检索中取得稳定且显著的提高。在三组公开数据集上的实验证明了该模型的有效性，并且与标准排名器蒸馏相结合可以进一步提高检索效果。

Aug, 2022

大型语言模型是内置自回归搜索引擎

这篇论文旨在研究大型语言模型的文档检索能力。实验表明，通过提供少量上下文演示，大模型可以直接生成正确答案的网址，相比于目前的检索方法在开放领域问答中表现更佳。

May, 2023

基于摘要描述的文本检索

本文提出了新的检索模型，结合了指令模型和基于检索模型，使用大型语言模型的正负对进行训练，以改进当前文本嵌入技术性能。

May, 2023

增强嵌入用于定制检索

信息检索中的全面检索方法被应用于大型语言模型的前提学习中，这些检索方法早期用于经典应用，但近期多用于异构且严格的应用，需要改进小K值的检索。我们提出了一种改进的密集检索方法，通过学习预训练嵌入的低秩残差适应来实现任务特定、异构且严格的检索，并在实验证明我们的方法相比于基于通用嵌入的基线有所改进。

Oct, 2023

搜索适配器：信息检索的文本嵌入定制化

通过自定义 Search-Adaptor 方法，我们可以提高预训练大型语言模型在信息检索和搜索领域的性能，有效且稳健地修改原始文本嵌入向量，与任何语言模型集成，并在多个实际英语和多语种检索数据集上取得一致且显著的性能提升。

Oct, 2023

在多语言多层次检索中，利用LLMs合成训练数据

通过使用SWIM-IR合成训练数据集，我们研究了多语言密集检索模型的能力，并在三个检索基准上对其进行了全面评估，发现SWIM-IR可以以较低成本替代昂贵的人工标记检索训练数据。

Nov, 2023

LLM-Augmented Retrieval: 借助语言模型和文档级嵌入增强检索模型

该研究论文介绍了一种基于模型无关的文档级嵌入框架，通过大型语言模型（LLM）增强，改进了检索模型训练过程中的一些重要组件，如负采样、损失函数等。通过实现这个LLM增强的检索框架，我们显著提高了广泛使用的检索模型（如Bi-encoders和late-interaction models）的效果，并在LoTTE数据集和BEIR数据集上取得了最新的研究成果。

Apr, 2024

大型语言模型作为下一代密集检索的基础：全面的实证评估

本研究解决了传统检索模型在领域准确性和推广能力方面的不足，通过对多种检索任务的全面实证研究，评估了大型语言模型（LLMs）的性能。研究发现，较大的模型和广泛的预训练能够持续提升领域准确性和数据有效性，并在零样本推广和多任务学习等方面展现出显著潜力，这为未来相关领域的研究与开发提供了重要见解。

Aug, 2024

大型语言模型作为下一代密集检索的基础：全面的实证评估

本研究针对传统检索模型在特定领域的准确性和泛化能力不足的问题，采用大型语言模型（LLMs）进行评估，探讨其在密集检索中的独特优势。研究结果表明，较大的模型和更长的预训练时间能够显著提高领域内准确性和数据效率，同时在零样本泛化、长检索等多任务学习中具有重要潜力，这为未来的研究和开发提供了有价值的见解。

Aug, 2024

通过指令调优的无监督文本表示学习用于零-shot密集检索

本研究解决了密集检索系统对标注数据的依赖问题，提出了一种通过指令调优的预训练编码器-解码器大语言模型进行无监督文本表示学习的新方法。研究表明，通过生成相关的合成查询，可以增强语料库表示，从而在低资源设置下显著改善零-shot检索性能。

Sep, 2024