课程学习中任务排序的优化框架
本文研究课程学习在强化学习中的应用,并针对多个传递学习算法扩展已有的课程设计方法,通过学习MDP(Markov Decision Process)过程中的课程策略,得出可以用于训练代理人的课程,进而实现更快或同等方法的学习效率。
Dec, 2018
本论文提出一种任务排序算法,旨在通过控制学习过程中的探索行为减少非最优行为,并通过实验表明在组合优化问题中能够实现显著的累积回报最大化性能,以及在微型能源网络的家庭控制器优化问题中实现验证。
Jun, 2019
本文介绍了自动课程学习(ACL)的相关文献,并对当前状态进行了概述,旨在促进现有概念的交叉和新思想的出现。ACL是深度强化学习成功的中坚力量,可用于改善样本效率和渐进性能,组织探索,鼓励泛化或解决稀疏奖励问题,等等。
Mar, 2020
通过分析两个简单的学习场景,我们设计了一种叫做 ProCuRL 的课程策略,受到了教育概念中的“近发展区”(Zone of Proximal Development,ZPD)的启发。我们还提出了 ProCuRL 的实用变体,可在最小的超参数调整下直接与深度强化学习框架集成,从而有效地加速深度强化学习代理的训练过程。实验结果表明,与现有的基线相比,我们的课程策略在各种领域中都取得了较好的效果。
Apr, 2023
通过将课程设置为任务分布之间的插值,将生成课程作为约束优化传输问题来提高课程强化学习(CRL)方法的性能,从而在具有不同特点的各种任务中取得高性能。
Sep, 2023
我们提出了一种新的课程方法,通过自动定义语义目标空间以及在其上提出课程目标来缓解以往方法在高维度空间中生成课程目标时遇到的挑战,并改善课程的可伸缩性。我们通过向量量化变分自动编码器(VQ-VAE)将连续观测离散化,并通过图形恢复离散观测之间的时序关系。同时,我们提出了考虑不确定性和时间距离的课程目标,这些目标能够收敛到自动组合的目标空间的最终目标。我们证明了该方法仅仅通过原始目标示例就能在未知环境中实现高效探索,且在各种目标达成任务中,甚至使用自我中心视觉输入时,该方法在数据效率和性能上都优于最先进的课程增强学习方法。
Oct, 2023
基于近发展区概念,我们提出了一种名为ProCuRL-Target的新型课程计划,它可以在复杂任务的目标分布上平衡选择任务的需要,通过利用任务之间的相关性推动代理的学习,从而加速深度强化学习代理的训练过程。
May, 2024