LADER: 生物医学文献检索的对数增强稠密检索
通过利用知识图谱缓解信息过载问题,本研究提出了一种新的信息检索方法,其检索性能在精确度和召回率两方面约为嵌入相似性方法的两倍,并且证明了嵌入相似性和知识图谱检索方法可以有益地结合成一个混合模型,优于两者,从而能够对生物医学问答模型进行潜在改进。
Feb, 2024
利用检索增强的生成模型在生物医学领域中实现大型语言模型的知识更新和性能提升,并证明了 BiomedRAG 在 5 个生物医学自然语言处理任务中的卓越表现。
May, 2024
该研究论文介绍了一种基于模型无关的文档级嵌入框架,通过大型语言模型(LLM)增强,改进了检索模型训练过程中的一些重要组件,如负采样、损失函数等。通过实现这个 LLM 增强的检索框架,我们显著提高了广泛使用的检索模型(如 Bi-encoders 和 late-interaction models)的效果,并在 LoTTE 数据集和 BEIR 数据集上取得了最新的研究成果。
Apr, 2024
本文介绍了一种名为 ChatLR 的新型检索增强框架,主要利用大型语言模型(LLMs)的强大语义理解能力作为检索器,以实现精确和简洁的信息检索。通过在金融领域微调 LLM 并构建基于 LLM 的搜索和问答系统,实验证明 ChatLR 在解决用户查询中表现出高达 98.8%的信息检索准确性。
May, 2024
提出了一种新颖的方法 LLaRA(LLM 适应于密集检索),它作为 LLM 的事后适应工具,用于密集检索应用。LLaRA 包括两个预处理任务:EBAE (基于嵌入的自编码) 和 EBAR (基于嵌入的自回归),其中来自 LLM 的文本嵌入用于重建输入句子的标记并预测下一句的标记。LLaRA 简单、轻量且高效,应用于 LLMaMA-2-7B(基础)模型,在维基百科语料库上大大提升了模型对各种密集检索基准(如 MSMARCO 和 BEIR)的微调性能。
Dec, 2023
本文提出了 DIRAS(Domain-specific Information Retrieval Annotation with Scalability)方法,通过细调开源 LLMs 来使用校准的相关性概率注释相关标签,实现了 GPT-4 级别的模型性能,对于实际的 RAG 开发具有帮助。
Jun, 2024
通过将外部知识库融入到 Retrieval-Augmented Generation (RAG) 中,提出了一种名为 Dynamic-Relevant Retrieval-Augmented Generation (DR-RAG)的两阶段检索框架,用于改善文档检索的召回率和答案的准确性,同时保持高效性,通过对检索到的文档的贡献进行分类确定相对相关的文档,实验证明 DR-RAG 能显著提高答案的准确性,并在 QA 系统方面取得新的进展。
Jun, 2024
这篇论文旨在研究大型语言模型的文档检索能力。实验表明,通过提供少量上下文演示,大模型可以直接生成正确答案的网址,相比于目前的检索方法在开放领域问答中表现更佳。
May, 2023
自主生物文档检索增强式生成(Self-BioRAG)是一种可靠的生物医学文本生成解释、检索特定领域文档,并进行自我反思的框架。通过使用 84k 个过滤后的生物医学指令集训练 Self-BioRAG,它可以使用定制的反思标记评估其生成的解释。实验结果表明,Self-BioRAG 在三个主要的医学问答基准数据集上实现了显著的性能增益,平均绝对改进率为 7.2%,超过了参数大小为 7B 或更少的最先进的开放式基础模型。我们将数据和模型权重(7B 和 13B)发布出来,以增强生物医学和临床领域的能力。
Jan, 2024
以通用的文本检索插件为基础,通过增强适应性的文本检索器 (AAR),为各种语言模型 (large target LMs ranging from 250M Flan-T5 to 175B InstructGPT) 提供外部知识,从而显着提高零样本推理的泛化能力。
May, 2023