BioRAG:用于生物问题推理的检索增强生成框架
自主生物文档检索增强式生成(Self-BioRAG)是一种可靠的生物医学文本生成解释、检索特定领域文档,并进行自我反思的框架。通过使用84k个过滤后的生物医学指令集训练Self-BioRAG,它可以使用定制的反思标记评估其生成的解释。实验结果表明,Self-BioRAG在三个主要的医学问答基准数据集上实现了显著的性能增益,平均绝对改进率为7.2%,超过了参数大小为7B或更少的最先进的开放式基础模型。我们将数据和模型权重(7B和13B)发布出来,以增强生物医学和临床领域的能力。
Jan, 2024
利用大型语言模型 (LLM),本研究评估了几种策略用于在生命科学知识图谱上进行问题回答,并提出一种端到端的数据增强方法,使得即使在缺乏问题到SPARQL查询对的数据集的情况下,也能进行微调。此外,研究还探讨了查询中语义线索的作用,并在真实的基因表达知识图谱上进行了评估,结果表明语义线索可以提高模型性能,相比于随机变量名和没有注释的基准结果,性能提升最多达到33%。
Feb, 2024
通过利用知识图谱缓解信息过载问题,本研究提出了一种新的信息检索方法,其检索性能在精确度和召回率两方面约为嵌入相似性方法的两倍,并且证明了嵌入相似性和知识图谱检索方法可以有益地结合成一个混合模型,优于两者,从而能够对生物医学问答模型进行潜在改进。
Feb, 2024
利用检索增强的生成模型在生物医学领域中实现大型语言模型的知识更新和性能提升,并证明了BiomedRAG在5个生物医学自然语言处理任务中的卓越表现。
May, 2024
通过结合Large Language Models的推理能力和Tree Search的效果,我们提出了一种基于Self-Rewarding Tree Search的新型LLM检索方法,通过使用SeRTS收集的轨迹作为反馈来使用Proximal Policy Optimization优化LLMs,从而显著提高了在医学知识查询背景下RAG的性能,为准确和全面的生物医学问题回答分享了LLMs的潜力。
Jun, 2024
本文讨论了过去十年在生物医学和大型语言模型方面取得的进展,还讨论了自然语言处理技术和工具如何与生物医学相结合。最后,通过引入一系列新的问题和提示,本文旨在对去年一项调查的结果进行扩展,以 quantifying 大型语言模型的推理能力改进以及普通用户所感受到的改进程度。此外,本文还通过要求大型语言模型深入回答开放性问题,扩展了生物文献检索的研究领域。
May, 2024
本研究针对生命科学研究中的问答系统面临的知识维持和信息检索挑战,提出了BioRAG框架。该框架采用新的检索增强生成(RAG)与大型语言模型(LLM)相结合的方式,通过解析和索引2200万篇科学论文,构建了领域特定的知识层级,显著提高了在生物问题推理方面的准确性和效率。
Aug, 2024
本研究解决了现有检索增强生成(RAG)方法在处理模糊信息需求和非结构化知识时的局限性。提出的MemoRAG使用双系统架构,通过长时记忆提高检索能力,显著提升了复杂任务的表现,潜在影响在于推动RAG技术的进一步发展。
Sep, 2024
本研究针对现有检索增强生成(RAG)方法在处理模糊信息需求和非结构化知识方面的局限性,提出了MemoRAG这一新颖的生成范例。通过双系统架构,MemoRAG结合了长程记忆和强大的生成能力,在多种评估任务中展现出优异的性能,有效地扩展了RAG的应用范围。
Sep, 2024