Oct, 2021
基于不确定性的离线强化学习与多样化 Q 集成
Uncertainty-Based Offline Reinforcement Learning with Diversified Q-Ensemble
Gaon An, Seungyong Moon, Jang-Hyun Kim, Hyun Oh Song
TL;DR本文提出了一种基于不确定性的离线强化学习方法,考虑 Q 值预测的置信度,不需要对数据分布进行估计或抽样,并提出了一种集合多样化的演员 - 批评家算法,该算法在大多数 D4RL 基准测试中实现了最先进的性能。