ICMLJul, 2019

离线强化学习的乐观视角

TL;DR该研究使用 DQN 重放数据集研究了离线强化学习,提出了随机集合混合(REM)算法以促进泛化,得到比经过完全训练的 DQN 代理更好的结果。这表明,针对足够大且多样化的离线数据集进行训练的鲁棒强化学习算法可以导致高质量的策略。