BiomedRAG：一种用于生物医学领域的检索增强大型语言模型

May, 2024

BiomedRAG：一种用于生物医学领域的检索增强大型语言模型

BiomedRAG: A Retrieval Augmented Large Language Model for Biomedicine

Mingchen Li, Halil Kilicoglu, Hua Xu, Rui Zhang

TL;DR利用检索增强的生成模型在生物医学领域中实现大型语言模型的知识更新和性能提升，并证明了 BiomedRAG 在 5 个生物医学自然语言处理任务中的卓越表现。

Abstract

large language models (LLMs) have swiftly emerged as vital resources for different applications in the biomedical and healthcare domains; however, these models encounter issues such as generating inaccurate information or hallucinations. →

large language models retrieval-augmented generation biomedrag biomedical nlp tasks triple extraction

发现论文，激发创造

借助具备检索增强功能的大型语言模型改进医学推理

自主生物文档检索增强式生成（Self-BioRAG）是一种可靠的生物医学文本生成解释、检索特定领域文档，并进行自我反思的框架。通过使用 84k 个过滤后的生物医学指令集训练 Self-BioRAG，它可以使用定制的反思标记评估其生成的解释。实验结果表明，Self-BioRAG 在三个主要的医学问答基准数据集上实现了显著的性能增益，平均绝对改进率为 7.2％，超过了参数大小为 7B 或更少的最先进的开放式基础模型。我们将数据和模型权重（7B 和 13B）发布出来，以增强生物医学和临床领域的能力。

Jan, 2024

工具呼叫：通过检索增强大型语言模型提升药物咨询

基于检索增强生成（RAG）的大规模语言模型（LLMs）在医学领域的知识密集型任务中表现出显著的性能提升，着重研究了利用 LLMs 和 RAG 框架回答基于医药数据库的查询问题，并提出了 Distill-Retrieve-Read 框架用于关键字搜索，实验结果证明了该框架在证据检索准确性方面的优势。

Apr, 2024

大型语言模型中的检索增强生成的开发与测试 -- 一份案例研究报告

大型语言模型（LLMs）在医疗应用中具有重要潜力，而检索增强生成（RAG）被认为是一种有前景的方法来定制 LLMs 中的领域知识。该研究通过开发和评估一个专门针对医疗保健领域、特别关注术前医学的 LLM-RAG 流程，验证了其可行性。

Jan, 2024

基于图的检索器捕捉生物医学知识的长尾

通过利用知识图谱缓解信息过载问题，本研究提出了一种新的信息检索方法，其检索性能在精确度和召回率两方面约为嵌入相似性方法的两倍，并且证明了嵌入相似性和知识图谱检索方法可以有益地结合成一个混合模型，优于两者，从而能够对生物医学问答模型进行潜在改进。

Feb, 2024

医学领域检索增强生成的基准测试

通过在医学问答数据集上的大规模实验，我们提出了一种基于检索增强生成的评估框架 MIRAGE，以改善大型语言模型在医学领域中的表现，并通过引入 MedRAG 工具包提高了六个不同语言模型的准确性，最高可达到 18%，将 GPT-3.5 和 Mixtral 的性能提升至 GPT-4 级别。

Feb, 2024

关于 RAG 遇见 LLM 的调研：走向检索增强的大型语言模型

检视了检索增强型大型语言模型（RA-LLMs）的现有研究，涵盖体系结构、训练策略和应用三个主要技术视角，并介绍了此类模型的基础知识和最新进展，以及它们为大型语言模型（LLMs）带来的实际意义和应用领域的挑战和能力，最后讨论了当前的局限性和未来研究的几个有前途的方向。

May, 2024

大型语言模型的生物医学知识图增强提示生成

提出了一种融合知识图谱和大型语言模型的框架，通过优化方式，增强了通用型语言模型适应处理领域特定问题的能力。

Nov, 2023

大语言模型的检索增强生成：综述

大型语言模型（LLMs）在实际应用中仍面临幻觉、知识更新缓慢和答案透明度不足等挑战。检索增强生成（RAG）是指在 LLMs 回答问题之前从外部知识库中检索相关信息。该论文概述了 LLMs 时代 RAG 的发展范式，总结了三种范式：Naive RAG，Advanced RAG 和 Modular RAG。同时，它提供了 RAG 的三个主要组成部分：检索器、生成器和增强方法的摘要和组织，以及每个组件的关键技术。此外，论文讨论了如何评估 RAG 模型的有效性，并介绍了两种 RAG 的评估方法、重点指标和能力，以及最新的自动评估框架。最后，从垂直优化、水平可扩展性和 RAG 的技术堆栈和生态系统三个方面引入了潜在的未来研究方向。

Dec, 2023

用于医学教育中大规模非结构化文本数据的检索增强生成和代表性向量摘要化

本文讨论了检索增强生成模型在医学教育领域的应用，并提出了一种使用代表向量对大规模非结构化文本数据进行抽取和生成式摘要的方法。

Aug, 2023

纠错检索增强生成

大语言模型（LLMs）不可避免地产生幻觉，因为仅依靠它们所封装的参数知识无法确保生成的文本的准确性。为了改善生成的鲁棒性，我们提出了纠正检索增强生成（CRAG）。通过设计轻量级的检索评估模型来评估检索文档的整体质量，并基于此返回信心度，从而触发不同的知识检索操作。此外，利用大规模网络搜索扩展检索结果。通过分解和重组算法，选择性关注关键信息并过滤掉不相关信息。CRAG 与各种基于 RAG 的方法可以无缝连接。在涵盖短文和长文生成任务的四个数据集上的实验表明，CRAG 可以显著提高基于 RAG 的方法的性能。

Jan, 2024