LADER: 生物医学文献检索的对数增强稠密检索

SIGIRApr, 2023

LADER: 生物医学文献检索的对数增强稠密检索

LADER: Log-Augmented DEnse Retrieval for Biomedical Literature Search

Qiao Jin, Andrew Shin, Zhiyong Lu

TL;DRLADER 是一种简单的插件模块，可将稠密检索器与类似训练查询的点击日志相结合，从而实现生物医学文献检索的最新技术表现。

Abstract

Queries with similar information needs tend to have similar document clicks, especially in biomedical literature search engines where queries are generally short and top documents account for most of the total clicks. Motivated by this, we present a novel architecture for →

biomedical literature search dense retriever click logs lader state-of-the-art performance

发现论文，激发创造

基于图的检索器捕捉生物医学知识的长尾

通过利用知识图谱缓解信息过载问题，本研究提出了一种新的信息检索方法，其检索性能在精确度和召回率两方面约为嵌入相似性方法的两倍，并且证明了嵌入相似性和知识图谱检索方法可以有益地结合成一个混合模型，优于两者，从而能够对生物医学问答模型进行潜在改进。

Feb, 2024

BiomedRAG：一种用于生物医学领域的检索增强大型语言模型

利用检索增强的生成模型在生物医学领域中实现大型语言模型的知识更新和性能提升，并证明了 BiomedRAG 在 5 个生物医学自然语言处理任务中的卓越表现。

May, 2024

LLM-Augmented Retrieval: 借助语言模型和文档级嵌入增强检索模型

该研究论文介绍了一种基于模型无关的文档级嵌入框架，通过大型语言模型（LLM）增强，改进了检索模型训练过程中的一些重要组件，如负采样、损失函数等。通过实现这个 LLM 增强的检索框架，我们显著提高了广泛使用的检索模型（如 Bi-encoders 和 late-interaction models）的效果，并在 LoTTE 数据集和 BEIR 数据集上取得了最新的研究成果。

Apr, 2024

通过大型语言模型重定义结构化数据库的信息检索

本文介绍了一种名为 ChatLR 的新型检索增强框架，主要利用大型语言模型（LLMs）的强大语义理解能力作为检索器，以实现精确和简洁的信息检索。通过在金融领域微调 LLM 并构建基于 LLM 的搜索和问答系统，实验证明 ChatLR 在解决用户查询中表现出高达 98.8％的信息检索准确性。

May, 2024

构建更好的基于大型语言模型的稠密检索模型

提出了一种新颖的方法 LLaRA（LLM 适应于密集检索），它作为 LLM 的事后适应工具，用于密集检索应用。LLaRA 包括两个预处理任务：EBAE (基于嵌入的自编码) 和 EBAR (基于嵌入的自回归)，其中来自 LLM 的文本嵌入用于重建输入句子的标记并预测下一句的标记。LLaRA 简单、轻量且高效，应用于 LLMaMA-2-7B（基础）模型，在维基百科语料库上大大提升了模型对各种密集检索基准（如 MSMARCO 和 BEIR）的微调性能。

Dec, 2023

DIRAS：检索增强生成中高效的 LLM 辅助文档相关性标注

本文提出了 DIRAS（Domain-specific Information Retrieval Annotation with Scalability）方法，通过细调开源 LLMs 来使用校准的相关性概率注释相关标签，实现了 GPT-4 级别的模型性能，对于实际的 RAG 开发具有帮助。

Jun, 2024

DR-RAG: 将动态文档相关性应用于检索增强问答生成

通过将外部知识库融入到 Retrieval-Augmented Generation (RAG) 中，提出了一种名为 Dynamic-Relevant Retrieval-Augmented Generation （DR-RAG）的两阶段检索框架，用于改善文档检索的召回率和答案的准确性，同时保持高效性，通过对检索到的文档的贡献进行分类确定相对相关的文档，实验证明 DR-RAG 能显著提高答案的准确性，并在 QA 系统方面取得新的进展。

Jun, 2024

大型语言模型是内置自回归搜索引擎

这篇论文旨在研究大型语言模型的文档检索能力。实验表明，通过提供少量上下文演示，大模型可以直接生成正确答案的网址，相比于目前的检索方法在开放领域问答中表现更佳。

May, 2023

借助具备检索增强功能的大型语言模型改进医学推理

自主生物文档检索增强式生成（Self-BioRAG）是一种可靠的生物医学文本生成解释、检索特定领域文档，并进行自我反思的框架。通过使用 84k 个过滤后的生物医学指令集训练 Self-BioRAG，它可以使用定制的反思标记评估其生成的解释。实验结果表明，Self-BioRAG 在三个主要的医学问答基准数据集上实现了显著的性能增益，平均绝对改进率为 7.2％，超过了参数大小为 7B 或更少的最先进的开放式基础模型。我们将数据和模型权重（7B 和 13B）发布出来，以增强生物医学和临床领域的能力。

Jan, 2024

适应增强的召回器作为通用插件提升语言模型的泛化能力

以通用的文本检索插件为基础，通过增强适应性的文本检索器 (AAR)，为各种语言模型 (large target LMs ranging from 250M Flan-T5 to 175B InstructGPT) 提供外部知识，从而显着提高零样本推理的泛化能力。

May, 2023