Jun, 2024

离线强化学习中,价值学习真的是主要瓶颈吗?

TL;DR离线强化学习的性能问题一直存在着,本研究通过比较值函数学习、策略提取和策略泛化这三个组件对离线强化学习的性能进行了系统的实证研究,发现策略提取算法的选择对离线强化学习的性能和可扩展性有着显著影响,同时,离线强化学习的性能问题主要还是由训练数据支持范围之外的测试状态上的策略泛化不完善所导致。本研究提出了两种简单的测试时间策略优化方法,并证明这些方法可以改善离线强化学习的性能。