BioRAG：用于生物问题推理的检索增强生成框架

Aug, 2024

BioRAG：用于生物问题推理的检索增强生成框架

BioRAG: A RAG-LLM Framework for Biological Question Reasoning

Chengrui Wang, Qingqing Long, Meng Xiao, Xunxin Cai, Chengjun Wu...

TL;DR本研究针对生命科学研究中问答系统面临的知识存储和信息检索挑战，提出了一种新颖的检索增强生成（RAG）与大型语言模型（LLM）框架BioRAG。通过解析、索引和分块2200万篇科学论文，并结合领域特定的知识层级，BioRAG显著提升了信息检索和推理能力，实验结果表明其在多个生命科学问答任务中优于现有的模型。

Abstract

The question-answering system for Life science research, which is characterized by the rapid pace of discovery, evolving insights, and complex interactions among knowledge entities, presents unique challenges in maintaining a comprehensive knowledge warehouse and accurate Information Retrieva

发现论文，激发创造

大型语言模型的生物医学知识图增强提示生成

提出了一种融合知识图谱和大型语言模型的框架，通过优化方式，增强了通用型语言模型适应处理领域特定问题的能力。

Nov, 2023

借助具备检索增强功能的大型语言模型改进医学推理

自主生物文档检索增强式生成（Self-BioRAG）是一种可靠的生物医学文本生成解释、检索特定领域文档，并进行自我反思的框架。通过使用84k个过滤后的生物医学指令集训练Self-BioRAG，它可以使用定制的反思标记评估其生成的解释。实验结果表明，Self-BioRAG在三个主要的医学问答基准数据集上实现了显著的性能增益，平均绝对改进率为7.2％，超过了参数大小为7B或更少的最先进的开放式基础模型。我们将数据和模型权重（7B和13B）发布出来，以增强生物医学和临床领域的能力。

Jan, 2024

SPARQL 生成：对于在生命科学知识图谱上进行问答的 OpenLLaMA 微调分析

利用大型语言模型 (LLM)，本研究评估了几种策略用于在生命科学知识图谱上进行问题回答，并提出一种端到端的数据增强方法，使得即使在缺乏问题到SPARQL查询对的数据集的情况下，也能进行微调。此外，研究还探讨了查询中语义线索的作用，并在真实的基因表达知识图谱上进行了评估，结果表明语义线索可以提高模型性能，相比于随机变量名和没有注释的基准结果，性能提升最多达到33%。

Feb, 2024

基于图的检索器捕捉生物医学知识的长尾

通过利用知识图谱缓解信息过载问题，本研究提出了一种新的信息检索方法，其检索性能在精确度和召回率两方面约为嵌入相似性方法的两倍，并且证明了嵌入相似性和知识图谱检索方法可以有益地结合成一个混合模型，优于两者，从而能够对生物医学问答模型进行潜在改进。

Feb, 2024

BiomedRAG：一种用于生物医学领域的检索增强大型语言模型

利用检索增强的生成模型在生物医学领域中实现大型语言模型的知识更新和性能提升，并证明了BiomedRAG在5个生物医学自然语言处理任务中的卓越表现。

May, 2024

增强医学知识检索辅助生成：自奖励树搜索和近端策略优化

通过结合Large Language Models的推理能力和Tree Search的效果，我们提出了一种基于Self-Rewarding Tree Search的新型LLM检索方法，通过使用SeRTS收集的轨迹作为反馈来使用Proximal Policy Optimization优化LLMs，从而显著提高了在医学知识查询背景下RAG的性能，为准确和全面的生物医学问题回答分享了LLMs的潜力。

Jun, 2024

关于利用生物学问题的大型语言模型的推理能力和可访问性的调查

本文讨论了过去十年在生物医学和大型语言模型方面取得的进展，还讨论了自然语言处理技术和工具如何与生物医学相结合。最后，通过引入一系列新的问题和提示，本文旨在对去年一项调查的结果进行扩展，以 quantifying 大型语言模型的推理能力改进以及普通用户所感受到的改进程度。此外，本文还通过要求大型语言模型深入回答开放性问题，扩展了生物文献检索的研究领域。

May, 2024

BioRAG：一种用于生物问题推理的RAG-LLM框架

本研究针对生命科学研究中的问答系统面临的知识维持和信息检索挑战，提出了BioRAG框架。该框架采用新的检索增强生成(RAG)与大型语言模型(LLM)相结合的方式，通过解析和索引2200万篇科学论文，构建了领域特定的知识层级，显著提高了在生物问题推理方面的准确性和效率。

Aug, 2024

MemoRAG：通过基于记忆的知识发现迈向下一代RAG

本研究解决了现有检索增强生成（RAG）方法在处理模糊信息需求和非结构化知识时的局限性。提出的MemoRAG使用双系统架构，通过长时记忆提高检索能力，显著提升了复杂任务的表现，潜在影响在于推动RAG技术的进一步发展。

Sep, 2024

MemoRAG：通过记忆启发的知识发现迈向下一代RAG

本研究针对现有检索增强生成（RAG）方法在处理模糊信息需求和非结构化知识方面的局限性，提出了MemoRAG这一新颖的生成范例。通过双系统架构，MemoRAG结合了长程记忆和强大的生成能力，在多种评估任务中展现出优异的性能，有效地扩展了RAG的应用范围。

Sep, 2024