研究如何在强化学习的零样本泛化中,通过训练一个能够有效探索领域的行为策略,来克服先前面临的过拟合问题。该研究通过使用一套名为 “ExpGen” 的算法,在多个 ProcGen 挑战任务中实现了良好的实验效果,尤其是在迷宫和抢劫等与任务可视化相关深度度量难解的情形下。
Jun, 2023
本文研究机器学习领域中的强化学习问题,主要关注于学习能够适应不同环境的策略,探讨数据增强、元学习和对抗训练三种可能的策略泛化方法,发现数据增强方法是有效的,并研究了元学习和对抗学习作为替代的任务不可知方法的潜力。
Sep, 2018
通过提出基于任务感知的双专家框架 Generalist,将自然泛化和鲁棒泛化分离,为每个领域专业基础学习器选择不同的训练策略,并将它们的参数收集并组合成全局学习器进行训练,最终在自然表现和对抗性表现方面均能获得良好的结果。
Mar, 2023
本研究提出了受深度神经网络初始化和迁移学习启发的不同初始化技术,探讨其对生态系统方法的速度和效果的影响。
Dec, 2022
本文研究了如何在有限的标注数据下,通过半监督强化学习及反强化学习等方法,使机器人等强化学习智能体在探索未知领域时能够获得更好的泛化效果,并评估了该方法在基于图像的控制任务上的表现。
Dec, 2016
通过引入基准测试和实验协议,我们对深度强化学习中不同泛化方案的优点进行了系统评估,并发现与特定针对泛化的专门方案相比,“vanilla” 深度 RL 算法的泛化能力更强。
Oct, 2018
本文提出一种基于多样性推动的强化学习方法,能够学习多种解决任务的行为,从而实现能够适应多变环境和任务的泛化能力,同时,文中理论和实验结果表明,此方法能够产生一个健壮性环境集合。
Oct, 2020
本篇文章研究了一种数据驱动的元学习方法,使用此方法可以训练出一个能够优化强化学习的通用优化器,而且可以应用于复杂任务。这个优化器的结构大大提高了学习优化器的训练效率,并且已经证明其能够泛化到未知的复杂任务。
Feb, 2023
本文通过深度增强学习模型下的不确定性源和基准测试来研究面临的泛化挑战,并评估了改进泛化性能的几种技术,总结了迄今为止最稳健的技术。
Feb, 2019
通过利用深度神经网络解决高维状态或动作空间中的问题,强化学习研究在许多领域获得了显著的成功和关注。本文将概述深度强化学习策略遇到过拟合问题从而限制其鲁棒性和泛化能力的基本原因,并形式化和统一不同的解决方法来增加泛化能力并克服状态 - 动作值函数中的过拟合问题。我们相信我们的研究可以为当前深度强化学习的进展提供一个紧凑的系统统一分析,并有助于构建具有改进泛化能力的鲁棒深度神经策略。
Jan, 2024