Jul, 2021

掌握视觉连续控制:改进的数据增强强化学习

TL;DRDrQ-v2 是一个模型无关的强化学习算法,基于 off-policy actor-critic 方法和数据增强,可从像素直接学习并在 DeepMind Control Suite 中实现了复杂的人形运动任务,提供了强大且计算效率高的基线实现。