Jun, 2024
增强医学知识检索辅助生成:自奖励树搜索和近端策略优化
Enhancing Biomedical Knowledge Retrieval-Augmented Generation with Self-Rewarding Tree Search and Proximal Policy Optimization
Minda Hu, Licheng Zong, Hongru Wang, Jingyan Zhou, Jingjing Li...
TL;DR通过结合 Large Language Models 的推理能力和 Tree Search 的效果,我们提出了一种基于 Self-Rewarding Tree Search 的新型 LLM 检索方法,通过使用 SeRTS 收集的轨迹作为反馈来使用 Proximal Policy Optimization 优化 LLMs,从而显著提高了在医学知识查询背景下 RAG 的性能,为准确和全面的生物医学问题回答分享了 LLMs 的潜力。