May, 2022

当数据几何遇上深度函数:泛化离线强化学习

TL;DR研究了基于深度Q函数的强化学习中的策略学习问题,提出了一种新的方法Distance-sensitive Offline RL with better GEneralization(DOGE),该方法结合了数据几何和深度函数逼近器,使用状态条件的距离函数作为策略约束,有效解决了现有方法中过度保守导致泛化性能下降的问题。实验证明,与现有方法相比,DOGE算法在D4RL评测基准上表现更好,并且理论分析证明了该方法的优越性。