增强医学知识检索辅助生成：自奖励树搜索和近端策略优化

Jun, 2024

增强医学知识检索辅助生成：自奖励树搜索和近端策略优化

Enhancing Biomedical Knowledge Retrieval-Augmented Generation with Self-Rewarding Tree Search and Proximal Policy Optimization

PDF

Minda Hu, Licheng Zong, Hongru Wang, Jingyan Zhou, Jingjing Li...

TL;DR通过结合 Large Language Models 的推理能力和 Tree Search 的效果，我们提出了一种基于 Self-Rewarding Tree Search 的新型 LLM 检索方法，通过使用 SeRTS 收集的轨迹作为反馈来使用 Proximal Policy Optimization 优化 LLMs，从而显著提高了在医学知识查询背景下 RAG 的性能，为准确和全面的生物医学问题回答分享了 LLMs 的潜力。

Abstract

large language models (LLMs) have shown great potential in the biomedical domain with the advancement of retrieval-augmented generation (RAG). However, existing retrieval-augmented approaches face challenges in a

large language models retrieval-augmented generation self-rewarding tree search monte carlo tree search proximal policy optimization

发现论文，激发创造

借助具备检索增强功能的大型语言模型改进医学推理

自主生物文档检索增强式生成（Self-BioRAG）是一种可靠的生物医学文本生成解释、检索特定领域文档，并进行自我反思的框架。通过使用 84k 个过滤后的生物医学指令集训练 Self-BioRAG，它可以使用定制的反思标记评估其生成的解释。实验结果表明，Self-BioRAG 在三个主要的医学问答基准数据集上实现了显著的性能增益，平均绝对改进率为 7.2％，超过了参数大小为 7B 或更少的最先进的开放式基础模型。我们将数据和模型权重（7B 和 13B）发布出来，以增强生物医学和临床领域的能力。

Jan, 2024

基于图的检索器捕捉生物医学知识的长尾

通过利用知识图谱缓解信息过载问题，本研究提出了一种新的信息检索方法，其检索性能在精确度和召回率两方面约为嵌入相似性方法的两倍，并且证明了嵌入相似性和知识图谱检索方法可以有益地结合成一个混合模型，优于两者，从而能够对生物医学问答模型进行潜在改进。

Feb, 2024

大型语言模型的生物医学知识图增强提示生成

提出了一种融合知识图谱和大型语言模型的框架，通过优化方式，增强了通用型语言模型适应处理领域特定问题的能力。

Nov, 2023

ReST-MCTS*: LLM 自训练通过过程奖励引导的树搜索

基于强化学习的 ReST-MCTS* 方法结合过程奖励模型与树搜索 MCTS*，获取高质量的推理轨迹用于训练策略和奖励模型，在 LLM 自我训练中取得了更高的准确性和性能。

Jun, 2024

工具呼叫：通过检索增强大型语言模型提升药物咨询

基于检索增强生成（RAG）的大规模语言模型（LLMs）在医学领域的知识密集型任务中表现出显著的性能提升，着重研究了利用 LLMs 和 RAG 框架回答基于医药数据库的查询问题，并提出了 Distill-Retrieve-Read 框架用于关键字搜索，实验结果证明了该框架在证据检索准确性方面的优势。

Apr, 2024

大型语言模型中的检索增强生成的开发与测试 -- 一份案例研究报告

大型语言模型（LLMs）在医疗应用中具有重要潜力，而检索增强生成（RAG）被认为是一种有前景的方法来定制 LLMs 中的领域知识。该研究通过开发和评估一个专门针对医疗保健领域、特别关注术前医学的 LLM-RAG 流程，验证了其可行性。

Jan, 2024

用于医学教育中大规模非结构化文本数据的检索增强生成和代表性向量摘要化

本文讨论了检索增强生成模型在医学教育领域的应用，并提出了一种使用代表向量对大规模非结构化文本数据进行抽取和生成式摘要的方法。

Aug, 2023

蒙特卡洛树搜索通过迭代偏好学习提高推理能力

通过增强大型语言模型的推理能力，我们介绍了一种受 AlphaZero 成功策略启发的增量式偏好学习方法。我们利用蒙特卡洛树搜索 (MCTS) 迭代收集偏好数据，将实例级奖励分解为更精细的步骤级信号。为了增强中间步骤的一致性，我们结合了结果验证和逐步自我评估，不断更新新生成数据的质量评估。该算法采用直接偏好优化 (DPO) 使用这些新生成的步骤级偏好数据更新语言模型策略。对各种算术和常识推理任务进行的广泛评估表明，我们的方法在准确性方面相比现有模型取得了显著的性能提升。此外，我们的研究还深入探讨了训练和推理计算的权衡关系，为我们的方法如何有效地提高性能提供了见解。

May, 2024

医学领域检索增强生成的基准测试

通过在医学问答数据集上的大规模实验，我们提出了一种基于检索增强生成的评估框架 MIRAGE，以改善大型语言模型在医学领域中的表现，并通过引入 MedRAG 工具包提高了六个不同语言模型的准确性，最高可达到 18%，将 GPT-3.5 和 Mixtral 的性能提升至 GPT-4 级别。

Feb, 2024

通过自学使大型语言模型能够建立知识检索索引器

该研究提出了一种名为 PG-RAG 的预检索框架，使用大量阅读材料和结构化的语境记录来构建伪图数据库，该框架在单文档和多文档的问题回答任务中表现出明显的改进，具有高性能的检索和生成能力。

May, 2024