本论文对深度强化学习的过拟合现象进行了系统研究,发现过拟合可能会以不同方式发生,并且常用的随机性技术不一定能有效检测或预防过拟合,因此需要更加严谨的评估协议并研究感性偏差对泛化行为的影响。
Apr, 2018
本文通过深度增强学习模型下的不确定性源和基准测试来研究面临的泛化挑战,并评估了改进泛化性能的几种技术,总结了迄今为止最稳健的技术。
Feb, 2019
本文研究了深度强化学习中的过拟合问题,并使用程序生成的环境来构建不同的训练和测试集,其中引入了一个名为 CoinRun 的新环境,用作强化学习中泛化的基准。使用 CoinRun,作者发现代理程序会对相当大的训练集过拟合,还展示了更深层次的卷积体系结构以及传统监督学习中的方法,包括 L2 正则化,dropout,数据增强和批标准化等,能够提高泛化能力。
Dec, 2018
本研究提供了一个分析模型自由的强化学习中可能出现过度拟合的情形的框架,我们对观测空间进行修改以设计多个综合性的基准测试,并通过实验展示了与隐式规范和泛化性之间的关联
Dec, 2019
通过利用深度神经网络解决高维状态或动作空间中的问题,强化学习研究在许多领域获得了显著的成功和关注。本文将概述深度强化学习策略遇到过拟合问题从而限制其鲁棒性和泛化能力的基本原因,并形式化和统一不同的解决方法来增加泛化能力并克服状态 - 动作值函数中的过拟合问题。我们相信我们的研究可以为当前深度强化学习的进展提供一个紧凑的系统统一分析,并有助于构建具有改进泛化能力的鲁棒深度神经策略。
Jan, 2024
本文通过对 DeepMind 控制套件中的任务进行控制和系统性分析,研究了数据高效 RL 的瓶颈,发现高 TD 错误是深度强化学习算法性能严重影响的主要罪魁祸首,因此,在任何形式的监督学习中,利用任何形式的正则化技术,找到验证 TD 误差的最低点是使深度 RL 高效的一个强有力的原则。一个简单的在线模型选择方法针对验证 TD 错误在基于状态的 DMC 和 Gym 任务中也是有效的。
Apr, 2023
通过引入基准测试和实验协议,我们对深度强化学习中不同泛化方案的优点进行了系统评估,并发现与特定针对泛化的专门方案相比,“vanilla” 深度 RL 算法的泛化能力更强。
Oct, 2018
深度神经网络的持续学习面临着与固定数据集和凸连续学习模式不同的挑战,其中一个挑战是可塑性损失,即在线训练的神经网络显示出适应新任务的能力下降。本文通过一系列实验研究了深度增强学习中的可塑性损失和多种缓解方法,并发现在领域转移情况下可塑性损失普遍存在,许多解决方法在这种情境下失败,相反,一类 “再生” 方法能够在各种环境中保持可塑性损失的缓解效果,包括网格世界任务以及像《蒙特祖玛的复仇》和 ProcGen 这样更具挑战性的环境。
May, 2024
采用信息论正则化目标和一个退火优化方法来提高强化学习代理的泛化能力,从而在不同领域的任务中实现极端泛化,揭示信息理论和机器学习之间的联系。
Aug, 2020
本文研究深度强化学习中有限的训练环境对安全和泛化性能的影响,通过模型平均和使用阻塞分类器等简单方法,可显著降低在网格世界中的灾难情况,但在 CoinRun 环境中会存在一定失败率,然而可以通过系集的不确定性信息来预测是否需要人类干预。
Jul, 2019