模型自由规划的研究
本文提出了一种结合规划方法和强化学习的方法,利用强化学习学习目标驱动策略,从而让规划方法更好地实现任务;同时利用一个潜在变量模型来简洁地表示规划中的有效状态,从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。
Nov, 2019
强化学习算法在尺度递增和非结构化观测方面表现良好的方法,能够有效利用外部知识构建预测结构,并提供环境和算法供研究无结构观测向量和平面动作空间的缩放问题。
Nov, 2023
本文研究了 MuZero,一种先进的模型基强化学习算法在控制任务、Atari 游戏和 9x9 围棋等多种环境下的表现,阐述了规划在强化学习中的作用,以及如何在规划过程中优化算法,提高表现,并指出单独采用规划无法实现强的泛化能力。
Nov, 2020
我们证明了强化学习算法(包括无模型及基于模型的方法)的效率存在一个基本限制,其与环境进行交互寻找最优行为的过程在某类强化学习问题中具有指数级的下界;然而,存在一种对该类问题具有高效解决能力的方法,而该方法并非专门针对该类问题设计;与此相反,我们的限制并不适用于文献中提出的某些方法,例如,以目标为条件的方法或其他构建逆动力学模型的算法。
Sep, 2023
通过在模型自由学习算法中引入自我监督学习的方法,使其能够实现任务转移;该方法是有监督的,可以在没有奖励标签的情况下进行训练,并且可以快速地部署到新任务中。
May, 2023
采用信息论的观点,我们研究强化学习中的探索问题,并提出了一种新颖的无模型解决方案,通过推导实例特定的下界以及最优的探索策略,我们衍生出一种基于集成模型的无模型探索策略,适用于表格和连续马可夫决策过程, 数值结果表明我们的策略能够比最先进的探索方法更快地找到高效的策略。
Jun, 2024
通过引入预测模型和离线学习元素,结合一个实用性较高的终端价值函数,本文研究了如何在连续控制任务中实现样本高效的探索能力。通过利用潜在状态空间内的前向预测误差,我们得出了一种不引入额外参数的固有奖励。该奖励与模型不确定性有强烈的关联,使得智能体能够有效地克服渐进性能差距。通过广泛的实验证明,我们的方法在与以往工作的比较中表现出有竞争力的甚至更优异的性能,尤其是在稀疏奖励的情况下。
Mar, 2024
本文提出了一个在复杂城市自主驾驶场景下使用无模型深度强化学习的框架,并在高清晰度驾驶模拟器中进行了验证。结果表明,与基线相比,我们的方法可以很好地解决任务,且表现显著优异。
Apr, 2019
本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法,可以应用于大规模的问题,实现了对环境模型的无需获取,用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。
Oct, 2018