深度强化学习中过拟合的研究
本研究针对连续域深度强化学习方法中的过拟合问题进行了探讨,包括如何诊断及预防过拟合,增加训练多样性等,对强化学习领域的研究人员和实践者提出了实用观察。
Jun, 2018
本文探讨了通过在训练中使用过程化生成的关卡如何增加模型的泛化性能,并研究了其与人类设计的关卡的关系。结果表明,通过降低难度、调整关卡设计,可以获得更好的性能表现,并进行了降维和聚类分析来评估关卡生成器的分布。
Jun, 2018
通过引入基准测试和实验协议,我们对深度强化学习中不同泛化方案的优点进行了系统评估,并发现与特定针对泛化的专门方案相比,“vanilla”深度RL算法的泛化能力更强。
Oct, 2018
本文研究了深度强化学习中的过拟合问题,并使用程序生成的环境来构建不同的训练和测试集,其中引入了一个名为CoinRun的新环境,用作强化学习中泛化的基准。使用CoinRun,作者发现代理程序会对相当大的训练集过拟合,还展示了更深层次的卷积体系结构以及传统监督学习中的方法,包括L2正则化,dropout,数据增强和批标准化等,能够提高泛化能力。
Dec, 2018
本研究提供了一个分析模型自由的强化学习中可能出现过度拟合的情形的框架,我们对观测空间进行修改以设计多个综合性的基准测试,并通过实验展示了与隐式规范和泛化性之间的关联
Dec, 2019
本文通过对DeepMind控制套件中的任务进行控制和系统性分析,研究了数据高效RL的瓶颈,发现高TD错误是深度强化学习算法性能严重影响的主要罪魁祸首,因此,在任何形式的监督学习中,利用任何形式的正则化技术,找到验证TD误差的最低点是使深度RL高效的一个强有力的原则。一个简单的在线模型选择方法针对验证TD错误在基于状态的DMC和Gym任务中也是有效的。
Apr, 2023
本文提出了一种新的强化学习算法APO,该算法利用max-min博弈理论减轻数据扩充带来的过拟合问题,提高了学习策略的效率,并对几个DeepMind控制机器人环境的高维度和噪声状态设置进行了评估。实证结果表明,我们的方法APO在性能上始终优于最先进的基于策略的PPO代理,并且与最先进的数据增强,RAD和基于正式的DRAC等方法进行了比较。
Apr, 2023
通过利用深度神经网络解决高维状态或动作空间中的问题,强化学习研究在许多领域获得了显著的成功和关注。本文将概述深度强化学习策略遇到过拟合问题从而限制其鲁棒性和泛化能力的基本原因,并形式化和统一不同的解决方法来增加泛化能力并克服状态-动作值函数中的过拟合问题。我们相信我们的研究可以为当前深度强化学习的进展提供一个紧凑的系统统一分析,并有助于构建具有改进泛化能力的鲁棒深度神经策略。
Jan, 2024
通过在多个仿真场景中测试超过60种不同的off-policy智能体,并结合最新的正则化技术,我们发现适当进行正则化的简单Soft Actor-Critic智能体在解决狗任务方面表现出稳健而优越的性能。
Mar, 2024
通过对深度强化学习的分析,我们发现在大量梯度更新次数远远超过环境样本数量的情况下,存在一种优先偏见现象,即代理程序过度依赖早期的交互并低估后期经验,从而影响其学习能力。我们发现这种现象的根本挑战在于价值过高估计,这不仅体现在样本外分布数据上,也表现在样本内分布数据上,并可追溯到由优化器动量推动的未知动作预测。我们采用了一种简单的单位球归一化方法,使得在大量梯度更新比例下学习变得可行,并在广泛使用的dm_control套件上取得了强大的性能,在具有挑战性的dog任务上与基于模型的方法相媲美。我们的结果对于早期数据过拟合导致学习不佳的先前解释提出了部分质疑。
Mar, 2024