Mar, 2025

离线强化学习中的可证明零样本泛化

TL;DR本研究解决了离线强化学习(RL)中缺乏零样本泛化能力的问题。提出了悲观经验风险最小化(PERM)和悲观近端策略优化(PPPO)两种新方法,通过悲观策略评估引导策略学习,从而提升泛化能力。研究表明,PERM和PPPO能够找到近似最优的策略,标志着对离线强化学习中泛化现象基础的初步理解。