Nov, 2022

离线强化学习的状态感知邻近悲观算法

TL;DR本文提出了一种基于状态感知的近端悲观算法(SA-PP),通过利用学习策略与离线数据集之间的折扣静态状态分布比率,在状态级别上调节行为正则化的程度,以实现更合适的悲观学习,为此还提出了一种名为状态感知保守 Q-Learning(SA-CQL)的新算法,实验结果表明在标准离线学习基准测试中 SA-CQL 取得了最高平均收益。