Oct, 2019

基于批次的深度强化学习算法基准测试

TL;DR本研究在 Atari 领域中利用单个部分训练的行为策略生成的数据对最近的离线策略和批量强化学习算法的性能进行了基准测试,并发现在这些条件下,许多算法表现不佳,而 Batch-Constrained Q-learning 算法适应离散动作环境后在这项任务中表现最佳。