Jul, 2021

数据增强下的卷积神经网络和视觉 transformer 促进深度 Q 学习稳定性

TL;DR研究了在常见的离线政策 RL 算法中使用数据增强时不稳定性的原因,并提出了一种简单而有效的技术来稳定此类算法。在基于 DeepMind Control Suite 的一系列基准以及机器人操纵任务中,我们的方法极大地提高了 ConvNets 在增强下的稳定性和样本效率,并在具有未见视觉的环境中实现了与基于图像的 RL 中最先进方法的竞争性结果,同时证明了我们的方法可扩展到基于 ViT 的体系结构的 RL。