本文提出了强化学习中的课程学习框架,并使用此框架对现有的课程学习方法进行分类和研究,以找出未解决的问题并提出未来研究的方向。
Mar, 2020
提出了一种基于师生课程学习的强化学习方法,该方法独立于人类领域知识和手动课程设置,可以改善学生的样本效率和通用性。
Oct, 2022
本研究结合课程学习和域随机化方法,探究如何快速应用于机器人接触式操作任务中,实现在工业装配等领域中的快速学习和短时间内达到高成功率。研究结果表明,本文所提出的方法在工业插入任务中取得了最多 86% 的成功率,并且使用样本训练的时间不到以往的五分之一。
Apr, 2022
采用逆序课程和正序课程相结合的方法,RFCL,在学习从示范中获得显著改进,并且能够解决过去无法解决的需要高精度和控制的任务。
May, 2024
本文研究课程学习在强化学习中的应用,并针对多个传递学习算法扩展已有的课程设计方法,通过学习 MDP(Markov Decision Process) 过程中的课程策略,得出可以用于训练代理人的课程,进而实现更快或同等方法的学习效率。
Dec, 2018
通过分析两个简单的学习场景,我们设计了一种叫做 ProCuRL 的课程策略,受到了教育概念中的 “近发展区”(Zone of Proximal Development,ZPD)的启发。我们还提出了 ProCuRL 的实用变体,可在最小的超参数调整下直接与深度强化学习框架集成,从而有效地加速深度强化学习代理的训练过程。实验结果表明,与现有的基线相比,我们的课程策略在各种领域中都取得了较好的效果。
Apr, 2023
该研究论文提出了一种两阶段自适应教学方法,以提高深度强化学习(DRL)智能体的性能,主要包括使用过程生成任务、自动课程学习(ACL)和探索课程等关键词。
Apr, 2020
本文研究了如何通过选择不同目标函数,使用课程学习在强化学习中优化任务序列,提高初始性能,减少探索过程中的次优动作,并发现更好的策略。
Jan, 2019
本文提出了一种针对增强学习的不确定性和时间距离感知课程目标生成方法,通过解决二分图匹配问题,为课程提供精确的指导,从而更好地解决了先前课程 RL 方法中存在的问题,并在数量和质量上显著优于这些方法。
Jan, 2023
基于近发展区概念,我们提出了一种名为 ProCuRL-Target 的新型课程计划,它可以在复杂任务的目标分布上平衡选择任务的需要,通过利用任务之间的相关性推动代理的学习,从而加速深度强化学习代理的训练过程。