Apr, 2023

高效深度强化学习需要控制过拟合

TL;DR本文通过对DeepMind控制套件中的任务进行控制和系统性分析,研究了数据高效RL的瓶颈,发现高TD错误是深度强化学习算法性能严重影响的主要罪魁祸首,因此,在任何形式的监督学习中,利用任何形式的正则化技术,找到验证TD误差的最低点是使深度RL高效的一个强有力的原则。一个简单的在线模型选择方法针对验证TD错误在基于状态的DMC和Gym任务中也是有效的。