Feb, 2025
RAG-Gym:通过过程监督优化推理和搜索代理
RAG-Gym: Optimizing Reasoning and Search Agents with Process Supervision
TL;DR本研究旨在解决传统RAG架构在处理复杂问题时依赖静态检索的局限性。提出了RAG-Gym这一统一优化框架,通过细致的过程监督提高信息获取代理的能力,并创新性地引入ReSearch架构,实现答案推理与搜索查询生成的协同。实验结果表明,RAG-Gym在多个代理架构上性能提升达25.6%,显示了先进大语言模型作为过程奖励评判者的有效性以及训练奖励模型在不同大语言模型中的可迁移性。