Jan, 2024

乐观模型展开用于悲观离线策略优化

TL;DR我们提出了一个简单而有效的基于模型的离线强化学习框架ORPO,通过提倡更多的离群值扩展,基于乐观的MDP生成乐观模型推演用于悲观的离线策略优化,并在理论上证明ORPO训练出的策略在线性MDP中具有下界,实验结果显示我们的框架在广泛应用的基准测试中显著优于P-MDP基线,尤其在需要泛化的问题上表现出明显优势。