Nov, 2022
离线强化学习的状态感知邻近悲观算法
State-Aware Proximal Pessimistic Algorithms for Offline Reinforcement
Learning
TL;DR本文提出了一种基于状态感知的近端悲观算法(SA-PP),通过利用学习策略与离线数据集之间的折扣静态状态分布比率,在状态级别上调节行为正则化的程度,以实现更合适的悲观学习,为此还提出了一种名为状态感知保守Q-Learning(SA-CQL)的新算法,实验结果表明在标准离线学习基准测试中SA-CQL取得了最高平均收益。