BiomedRAG:一种用于生物医学领域的检索增强大型语言模型
自主生物文档检索增强式生成(Self-BioRAG)是一种可靠的生物医学文本生成解释、检索特定领域文档,并进行自我反思的框架。通过使用 84k 个过滤后的生物医学指令集训练 Self-BioRAG,它可以使用定制的反思标记评估其生成的解释。实验结果表明,Self-BioRAG 在三个主要的医学问答基准数据集上实现了显著的性能增益,平均绝对改进率为 7.2%,超过了参数大小为 7B 或更少的最先进的开放式基础模型。我们将数据和模型权重(7B 和 13B)发布出来,以增强生物医学和临床领域的能力。
Jan, 2024
基于检索增强生成(RAG)的大规模语言模型(LLMs)在医学领域的知识密集型任务中表现出显著的性能提升,着重研究了利用 LLMs 和 RAG 框架回答基于医药数据库的查询问题,并提出了 Distill-Retrieve-Read 框架用于关键字搜索,实验结果证明了该框架在证据检索准确性方面的优势。
Apr, 2024
大型语言模型(LLMs)在医疗应用中具有重要潜力,而检索增强生成(RAG)被认为是一种有前景的方法来定制 LLMs 中的领域知识。该研究通过开发和评估一个专门针对医疗保健领域、特别关注术前医学的 LLM-RAG 流程,验证了其可行性。
Jan, 2024
通过利用知识图谱缓解信息过载问题,本研究提出了一种新的信息检索方法,其检索性能在精确度和召回率两方面约为嵌入相似性方法的两倍,并且证明了嵌入相似性和知识图谱检索方法可以有益地结合成一个混合模型,优于两者,从而能够对生物医学问答模型进行潜在改进。
Feb, 2024
通过在医学问答数据集上的大规模实验,我们提出了一种基于检索增强生成的评估框架 MIRAGE,以改善大型语言模型在医学领域中的表现,并通过引入 MedRAG 工具包提高了六个不同语言模型的准确性,最高可达到 18%,将 GPT-3.5 和 Mixtral 的性能提升至 GPT-4 级别。
Feb, 2024
检视了检索增强型大型语言模型(RA-LLMs)的现有研究,涵盖体系结构、训练策略和应用三个主要技术视角,并介绍了此类模型的基础知识和最新进展,以及它们为大型语言模型(LLMs)带来的实际意义和应用领域的挑战和能力,最后讨论了当前的局限性和未来研究的几个有前途的方向。
May, 2024
大型语言模型(LLMs)在实际应用中仍面临幻觉、知识更新缓慢和答案透明度不足等挑战。检索增强生成(RAG)是指在 LLMs 回答问题之前从外部知识库中检索相关信息。该论文概述了 LLMs 时代 RAG 的发展范式,总结了三种范式:Naive RAG,Advanced RAG 和 Modular RAG。同时,它提供了 RAG 的三个主要组成部分:检索器、生成器和增强方法的摘要和组织,以及每个组件的关键技术。此外,论文讨论了如何评估 RAG 模型的有效性,并介绍了两种 RAG 的评估方法、重点指标和能力,以及最新的自动评估框架。最后,从垂直优化、水平可扩展性和 RAG 的技术堆栈和生态系统三个方面引入了潜在的未来研究方向。
Dec, 2023
本文讨论了检索增强生成模型在医学教育领域的应用,并提出了一种使用代表向量对大规模非结构化文本数据进行抽取和生成式摘要的方法。
Aug, 2023
大语言模型(LLMs)不可避免地产生幻觉,因为仅依靠它们所封装的参数知识无法确保生成的文本的准确性。为了改善生成的鲁棒性,我们提出了纠正检索增强生成(CRAG)。通过设计轻量级的检索评估模型来评估检索文档的整体质量,并基于此返回信心度,从而触发不同的知识检索操作。此外,利用大规模网络搜索扩展检索结果。通过分解和重组算法,选择性关注关键信息并过滤掉不相关信息。CRAG 与各种基于 RAG 的方法可以无缝连接。在涵盖短文和长文生成任务的四个数据集上的实验表明,CRAG 可以显著提高基于 RAG 的方法的性能。
Jan, 2024