连续控制中前瞻探索的模型学习
提出了一种基于模型的强化学习算法,该算法包括明确的探索和利用阶段,并适用于大规模或无限状态空间,该算法维护一组与当前体验一致的动态模型,并通过查找在状态预测之间引起高度分歧的策略来进行探索,然后利用精细化的模型或在探索过程中收集的体验,我们证明,在实现和最优规划的假设下,我们的算法能够用多项式结构复杂度度量在很多自然设置中得到完美的政策,并给出了一个使用神经网络的实用近似,并证明了它在实践中的性能和样本效率。
Nov, 2019
Go-Explore算法通过显式地记住有前途的状态并在有意探索之前首先回到这些状态的简单原则,直接解决了探索中的“detach”和“derailment”问题,并在所有难探索游戏上超越了现有技术,并在稀疏奖励抓取放置机器人任务上展示了其实际潜力。
Apr, 2020
通过规划最大化任务最优轨迹的期望信息增益的行动序列,使得该方法在较低的样本量下能够学习较强的策略,比探索基线算法少用2倍样本,比模型自由方法少用200倍样本。
Oct, 2022
通过使用状态条件生成模型在技能空间中加速探索,同时提出低层次的剩余策略来适应未知的任务变化,从而在与先前工作的比较中显着加快了探索速度,并跨四个不同于那些用于构建技能空间的具有挑战性的操作任务进行了验证。
Nov, 2022
本文提出了一种名为LfGP的框架来解决在在线强化学习阶段中,由于缺乏探索而导致的分布偏移问题,LfGP利用了多个探索性辅助任务的专家演示,强制代理程序探索标准AIL可能会忽略的状态和动作,实验结果表明,LfGP在多任务机器人操纵领域中显著优于AIL和行为克隆。
Dec, 2022
技能在分层强化学习中通过临时抽象旨在提高强化学习性能。我们首次提供对确定性技能在确定性稀疏奖励环境和有限动作空间中的效用进行准确描述的研究,理论和实证结果表明,状态解决方案的压缩性较低的环境中强化学习的技能优势较小,技能对于探索比现有经验的学习更具益处,使用宏动作等表达能力有限的技能可能会降低强化学习性能。我们希望这些发现可以指导自动技能发现的研究,并帮助强化学习从业者在何时如何使用技能上做出更好的决策。
Jun, 2024
本研究解决了在没有奖励、示范或子目标的情况下,如何从对比强化学习中自发涌现技能和有目的探索的问题。通过简单的算法修改,研究表明,智能体能够在仅仅通过观察目标状态的情况下,自主学习技能,并在不依赖任何额外参数的情况下有效进行探索。其发现为理解低资源情况下的智能体学习提供了新视角,具有重要的影响潜力。
Aug, 2024
本文研究了在强化学习中的困难探索问题,提出通过对象中心映射提高学习效率。通过层次化建模,我们的算法能够有效地解决单任务,并在不同物品类型和环境中进行零-shot和少-shot迁移。实验结果表明,该模型显著优于现有的低级方法和其他使用相同抽象的模型自由和模型基础的方法。
Aug, 2024