通过价值分歧进行自动课程学习
本文提出了一种基于逆向强化学习的方法,用于训练机器人完成目标导向任务,该方法自动生成适应智能体表现的初始状态课程,即使面对目前最先进的强化学习方法无法解决的困难仿真导航和纤细操纵问题也可取得显著成果。
Jul, 2017
该论文提出了一种名为CURIOUS的算法,它利用MODULAR Universal Value Function Approximator和自动化课程学习机制来实现学习代理的自主目标设定和自我组织学习课程,实现学习目标的快速最优化。
Oct, 2018
本文研究课程学习在强化学习中的应用,并针对多个传递学习算法扩展已有的课程设计方法,通过学习MDP(Markov Decision Process)过程中的课程策略,得出可以用于训练代理人的课程,进而实现更快或同等方法的学习效率。
Dec, 2018
研究探讨了如何在动态的环境下使用自动生成的任务大纲来改善智能体的效果,介绍了使用目标的有效性、可行性和覆盖面的考虑来构建有用的任务大纲的新技术,并在2D和3D环境中展示了成功应用。
Sep, 2019
本文提出了一种名为Planning to Practice(PTP)的方法,旨在解决普适性机器人面临的目标达成困难和训练代价高的问题,通过分解目标化问题和离线增强学习与在线探索相结合的方法,实现对复杂任务的有效训练和解决。
May, 2022
本文提出了一种针对增强学习的不确定性和时间距离感知课程目标生成方法,通过解决二分图匹配问题,为课程提供精确的指导,从而更好地解决了先前课程RL方法中存在的问题,并在数量和质量上显著优于这些方法。
Jan, 2023
该论文介绍了一种名为SPC的新型自动课程学习框架,该框架将课程学习应用于多智能体协调中,通过赋予学生团体不变的通信和分层技能,在不同数量的代理任务中学习合作和行为技能,并在学生策略的条件下将老师建模为一个情境式赌博机,提高了MARL环境下的性能、可伸缩性和样本效率。
Feb, 2023
提出了AGCL,一种基于确定性有限状态自动机(DFA)和面向对象马尔可夫决策过程(OOMDP)表示法的自动生成课程的方法,该方法在格子世界和基于物理仿真的机器人领域中的实验表明,AGCL 产生的课程在时间阈值性能上比最先进的课程学习和自动机引导强化学习技术实现了性能的提高。
Apr, 2023
我们提出了一种新的课程方法,通过自动定义语义目标空间以及在其上提出课程目标来缓解以往方法在高维度空间中生成课程目标时遇到的挑战,并改善课程的可伸缩性。我们通过向量量化变分自动编码器(VQ-VAE)将连续观测离散化,并通过图形恢复离散观测之间的时序关系。同时,我们提出了考虑不确定性和时间距离的课程目标,这些目标能够收敛到自动组合的目标空间的最终目标。我们证明了该方法仅仅通过原始目标示例就能在未知环境中实现高效探索,且在各种目标达成任务中,甚至使用自我中心视觉输入时,该方法在数据效率和性能上都优于最先进的课程增强学习方法。
Oct, 2023
基于近发展区概念,我们提出了一种名为ProCuRL-Target的新型课程计划,它可以在复杂任务的目标分布上平衡选择任务的需要,通过利用任务之间的相关性推动代理的学习,从而加速深度强化学习代理的训练过程。
May, 2024