通过利用先验信息,我们设计了一种能够有效地学习和处理未知环境中的强化学习问题的算法,大大提高了收集奖励的效率。
Jun, 2024
为了实现先验未知的真实世界场景下的自治,我们介绍了一种称为 PALMER 的通用规划算法,将经典基于采样的规划算法与基于学习的感知表示相结合,从而获得更健壮、更高效的长视距规划。
Dec, 2022
本文提出了一个注意机制来限制每个步骤的可用选项,通过学习 affordances 并进一步学习子目标选项,解决了层次强化学习中规划深度和分支因素的问题,并探讨了硬注意和软注意的作用,是一篇关于强化学习的研究论文。
Jan, 2022
我们介绍了一种结合规划算法和强化学习的通用控制算法,称为搜索回放缓冲(SoRB),可以自动生成子目标序列并解决高维度的长期任务。
Jun, 2019
本文提出了一种探索方法,将先前学习的基本技能及其动态与前瞻性搜索相结合,用于操作策略的强化学习,并且表明该方法比当前最先进的 RL 方法更快地学习到复杂操作策略,并获得更好的策略收敛结果。
Nov, 2018
提出一种新的基于连续状态和动作空间的控制的分层强化学习框架,其中用户指定状态的子集作为子目标区域,然后学习这些子目标区域之间的转换,并在生成的抽象决策过程 (ADP) 中构建高层计划,通过计划在抽象层和在具体层上的学习相结合的一个实际算法,优于现有的分层强化学习算法。
Oct, 2020
介绍一种利用通用价值函数和顺势学习相结合的方法,使代理在多个抽象层次上学习时间扩展的动作,并且在离散和连续任务中显著提高了学习效率。
May, 2018
提出了一种具备学习选择子目标的规划和行动架构,可以在面对有实时限制的场景时减轻规划器的负载。在视频游戏环境中训练了这种架构,并通过测试同一游戏的不同关卡来评估其泛化能力。结果表明,与其他方法相比,该模型在计划质量(计划长度)和时间要求方面表现更好,既比标准的深度 Q 学习更具样本效率,又可以更好地泛化到不同的关卡,同时较现有最先进的自动规划器缩短问题解决时间,但相应地得到的计划行动增加了 9%。
本篇论文主要探讨在大规模强化学习领域中,如何解决在使用树搜索规划时处理连续动作空间的问题,并通过学习选取能够有助于规划的可接受行为(Affordances),并以基于梯度下降的方法更新其参数,从而实现同时学习选取单元行为和规划带有学习后价值等价模型的方法优于无模型强化学习的目的。
Feb, 2022
通过控制有效计划视域,我们纠正了常见离线模仿学习算法中的近似误差问题,从而提升了算法的性能。
Jan, 2024