Jun, 2024

增强医学知识检索辅助生成:自奖励树搜索和近端策略优化

TL;DR通过结合 Large Language Models 的推理能力和 Tree Search 的效果,我们提出了一种基于 Self-Rewarding Tree Search 的新型 LLM 检索方法,通过使用 SeRTS 收集的轨迹作为反馈来使用 Proximal Policy Optimization 优化 LLMs,从而显著提高了在医学知识查询背景下 RAG 的性能,为准确和全面的生物医学问题回答分享了 LLMs 的潜力。