本文通过深度增强学习模型下的不确定性源和基准测试来研究面临的泛化挑战,并评估了改进泛化性能的几种技术,总结了迄今为止最稳健的技术。
Feb, 2019
本文研究了深度强化学习中的过拟合问题,并使用程序生成的环境来构建不同的训练和测试集,其中引入了一个名为 CoinRun 的新环境,用作强化学习中泛化的基准。使用 CoinRun,作者发现代理程序会对相当大的训练集过拟合,还展示了更深层次的卷积体系结构以及传统监督学习中的方法,包括 L2 正则化,dropout,数据增强和批标准化等,能够提高泛化能力。
Dec, 2018
本篇论文重新审视了深度强化学习中表示学习的概念,并提出了几种定义,并在一个通用的测试任务上使用这些定义评估了算法的性能,结果表明代理在一些未被探索的状态下决策结果较差,这暗示我们需要更多的实验和分析,以支持表示学习的相关权利主张。
该论文评估了特别设计用于泛化的算法 —— 元强化学习算法的泛化性能,发现在挑战性任务上,这些算法仍然存在严重的过拟合和扩展性问题,强调需要开发既能泛化又能扩展的元强化学习算法。
Jun, 2020
本文调查研究 Deep Reinforcement Learning (DRL) 中关于任务和领域适应以及泛化的最新发展,讨论未来如何增强算法的适应性和泛化能力,以解决更广泛的实际问题。
Feb, 2022
通过利用深度神经网络解决高维状态或动作空间中的问题,强化学习研究在许多领域获得了显著的成功和关注。本文将概述深度强化学习策略遇到过拟合问题从而限制其鲁棒性和泛化能力的基本原因,并形式化和统一不同的解决方法来增加泛化能力并克服状态 - 动作值函数中的过拟合问题。我们相信我们的研究可以为当前深度强化学习的进展提供一个紧凑的系统统一分析,并有助于构建具有改进泛化能力的鲁棒深度神经策略。
Jan, 2024
本研究提出了一种在不同 Atari 2600 游戏模式下进行强化学习泛化评估的方法,并证明 DQN 存在过度训练环境的问题;通过适当运用 dropout 和正则化,以及优化表示来提高泛化能力,有效提升 DQN 的样本效率。
Sep, 2018
本文研究了如何在有限的标注数据下,通过半监督强化学习及反强化学习等方法,使机器人等强化学习智能体在探索未知领域时能够获得更好的泛化效果,并评估了该方法在基于图像的控制任务上的表现。
Dec, 2016
本论文对深度强化学习的过拟合现象进行了系统研究,发现过拟合可能会以不同方式发生,并且常用的随机性技术不一定能有效检测或预防过拟合,因此需要更加严谨的评估协议并研究感性偏差对泛化行为的影响。
Apr, 2018
该研究通过比较在线学习和离线学习等方法的泛化能力,引入离线学习泛化性能评估的新基准,并发现离线学习算法在新环境中的表现不如在线学习算法,而增加数据多样性能够提高离线学习算法在新环境中的性能。
Dec, 2023