DocReLM: 用语言模型掌握文档检索

May, 2024

DocReLM: Mastering Document Retrieval with Language Model

Gengchen Wei, Xinle Pang, Tianning Zhang, Yu Sun, Xun Qian...

TL;DR通过使用大型语言模型，我们展示了文献检索系统能够达到先进的语义理解能力，显著优于现有系统；我们的方法包括使用大型语言模型生成的领域特定数据来训练检索器和再排名器，此外，我们还利用大型语言模型从检索到的论文参考文献中识别候选项以进一步提高性能；我们使用量子物理学和计算机视觉领域的学术研究人员标注的测试集来评估系统的性能，结果显示 DocReLM 在计算机视觉领域的前十准确率为 44.12%，而 Google Scholar 为 15.69%，在量子物理学中提高到 36.21%，而 Google Scholar 为 12.96%。

Abstract

With over 200 million published academic documents and millions of new documents being written each year, academic researchers face the challenge of searching for information within this vast corpus. However, existing retrieval systems struggle to understand the semantics and domain kn

academic researchers document retrieval system semantic understanding large language models performance evaluation

发现论文，激发创造

大型语言模型是内置自回归搜索引擎

这篇论文旨在研究大型语言模型的文档检索能力。实验表明，通过提供少量上下文演示，大模型可以直接生成正确答案的网址，相比于目前的检索方法在开放领域问答中表现更佳。

May, 2023

评估检索增强型大型语言模型在科学文件推理中的有效性

本研究通过关键字检索对多种大型语言模型进行评估，发现这些模型在科学文档推理任务中会使用编造的证据来支持预测，利用科学语料库进行预训练无法减轻证据捏造的风险。

Nov, 2023

LLM-Augmented Retrieval: 借助语言模型和文档级嵌入增强检索模型

该研究论文介绍了一种基于模型无关的文档级嵌入框架，通过大型语言模型（LLM）增强，改进了检索模型训练过程中的一些重要组件，如负采样、损失函数等。通过实现这个 LLM 增强的检索框架，我们显著提高了广泛使用的检索模型（如 Bi-encoders 和 late-interaction models）的效果，并在 LoTTE 数据集和 BEIR 数据集上取得了最新的研究成果。

Apr, 2024

何时检索：教导 LLMs 有效利用信息检索

本文介绍了如何使用大型语言模型（LLMs）有效地学习使用现成的信息检索系统来回答问题时所需的附加上下文。通过在 PopQA 数据集上进行评估，我们展示了 Adapt-LLM 在使用所有问题的信息检索、仅使用 LLM 的参数存储器以及使用人气阈值来决定何时使用检索程序三种配置下，相比相同 LLM 的改进。通过我们的分析，我们证明了当 Adapt-LLM 确定无法回答问题时，它能生成 <RET> 标记，表明需要进行信息检索，同时当只依赖参数存储器时，其达到明显高的准确率水平。

Apr, 2024

自我检索：运用一种大型语言模型构建信息检索系统

本文提出了自助检索 (Self-Retrieval) 的一种端到端、以大型语言模型为驱动的信息检索架构，能够充分内化信息检索系统所需的能力到一个单一的大型语言模型，深度利用语言模型在信息检索过程中的能力。实验结果表明，自助检索不仅在很大程度上优于以前的检索方法，还能显著提升以大型语言模型为驱动的下游应用，例如检索增强生成。

Feb, 2024

将 LLMs 转化为跨模态和跨语言检索系统

使用大型语言模型进行多模态双编码检索系统，能够在多种语言中匹配语音和文本，提升召回率并实现跨语言匹配。

Apr, 2024

大型语言模型的数量化知识检索

大型语言模型可用于定量信息检索，以帮助数据分析任务，如贝叶斯模型的先验分布以及缺失数据的插补。我们提出了一个提示工程框架，将大型语言模型视为科学文献的潜在空间界面，并与其他已建立的方法进行比较。同时讨论了使用大型语言模型作为 “专家” 的影响和挑战。

Feb, 2024

为高效、个性化信息检索调整语言模型的方法与影响

大型语言模型（LLMs）在信息检索方面的优化、模型幻觉、用户隐私等关键问题的研究。

Nov, 2023

利用语义和词汇匹配提高文档检索系统召回率：一种混合方法

本文研究将深度神经网络模型与词汇模型相结合应用于搜索引擎的检索阶段，并在 TREC 数据集上进行了实证研究，结果表明该方法得到了很好的效果，并揭示了语义方法、词汇方法以及二者结合的不同特点。

Oct, 2020

MrRank：通过多结果排名模型提升问答检索系统

使用学习排序技术结合不同的信息检索系统，解决大型语言模型中幻觉和过时信息的问题，提高检索问题回答任务的性能，并在 SQuAD 数据集上取得了最先进的结果。

Jun, 2024