面向转移强化学习的通用继承表示
我们提出了一种新型的普适继承特征逼近器,利用其可进行上下文下多种策略迁移与推论,提高了强化学习算法的鲁棒性和实用性,并在一款首人称三维环境导航应用上展示了其广泛适用性。
Dec, 2018
我们提出了一种基于 successor features 和 generalized policy improvement 的转移框架,用于处理奖励函数在不同任务之间变化的情况,并且可以在不同任务之间自由地交换信息,同时具有转移策略的性能保证。在导航任务和控制模拟机械臂中,该方法成功地促进了优化的转移,明显优于其他方法.
Jun, 2016
该论文提出了一种使用数据增强进行统一状态表示学习的强化学习通用化方法,可以提高智能体的泛化能力和领域自适应性能在 DeepMind 控制泛化基准测试中的表现,达到了更高的样本效率和 14.3%的领域适应性比最佳基准结果。
Sep, 2022
该论文介绍了 DSR,即在一个端到端的深度强化学习框架中,将 SR 进行了推广,通过奖励预测和继任者映射的分解提高了对远程奖励变化的灵敏度,并能够从随机策略下训练的继任者地图中提取瓶颈状态(子目标) 。然后在两个不同的环境中展示了该方法的有效性,包括简单的网格世界领域和 Doom 游戏引擎。
Jun, 2016
通过使用两个阶段的深度强化学习代理,其中第一阶段学习统一的状态表示,第二阶段在一个源域中基于此状态表示进行强化学习训练,以实现异构领域上的零样本策略转移,该方法已经在 CARLA 自动驾驶模拟器中得到验证。
Feb, 2021
介绍了基于继承代表(successor representation)的强化学习的简单方法,利用其转移概念的范数作为奖励来激励探索,以及用隐式计数实现高效完备探索,并在 Atari 2600 游戏中实现了最先进的性能。
Jul, 2018
本文提出了一种基于不确定参数空间的不确定性集合正则化器 USR,以提高强化学习在真实世界机器人领域中的鲁棒性和推广性,并在实际测试环境下对其进行评估。
Jul, 2022
本文分析了不同潜在状态空间的属性,发现了模型学习与模型自由强化学习之间的新联系,并表明对未来奖励结果预测有用的表征可在转换和奖励变化条件下进行推广,从而进一步实现模型学习和继承特征之间的联系。
Jan, 2019