通过自监督世界模型规划探索
本文介绍了一种无监督学习的方法 ——plan2vec。通过对图像数据集进行加权图构建,利用路径积分将局部信息转化为全局的 embedding,并在长时间轨迹规划的目标值估计上具有高效性和准确性,可行性实验结果表明 plan2vec 能够将规划成本有效地摊销,实现线性时空复杂度的反应式路径规划。
May, 2020
通过在模型自由学习算法中引入自我监督学习的方法,使其能够实现任务转移;该方法是有监督的,可以在没有奖励标签的情况下进行训练,并且可以快速地部署到新任务中。
May, 2023
该论文提出了基于自我监督控制和玩耍数据的方法来扩大技能学习,结合自我监督控制和多样性玩耍数据集,实现了对环境中所有可用行为的连续学习,取得了在机器人桌面环境中 18 项视觉操作任务上的显著表现,同时表现出更强的抗干扰能力和重试成功的行为。
Mar, 2019
通过规划最大化任务最优轨迹的期望信息增益的行动序列,使得该方法在较低的样本量下能够学习较强的策略,比探索基线算法少用 2 倍样本,比模型自由方法少用 200 倍样本。
Oct, 2022
在本文中,我们评估了 MuZero 代理在程序化和任务通用性方面的性能,并通过比较自由模型代理,确定了模型代理的泛化能力。我们发现,计划、自监督表示学习和程序数据多样性是程序化通用性的三个因素,并表明结合这些技术可以实现出色的通用性性能和数据效率。然而,我们发现这些因素不总是为 Meta-World 中的任务通用性基准提供相同的好处。
Nov, 2021
本文提出了一种基于无监督 RL 策略的数据高效视觉控制的方法,通过使用 Dyna-MPC 等组件的预训练来实现更快的任务适应,并且在大规模实证研究的基础上建立了一种强化学习方法,可以使无监督设计策略的性能大大提高。
Sep, 2022
本文研究了深度模型与强化学习中的样本效率问题。通过将认知不确定性引入到计划树中,规避了标准方法的不确定性传播,并通过 MuZero 算法进行了评估验证。 实验结果表明,可以通过不确定性规划实现有效的深度探索,从而显著提高样本效率。
Oct, 2022
在 Minecraft 环境中,我们使用强化学习技术训练多任务代理,将任务分解成学习基本技能和规划技能这两个步骤,通过提出三种细粒度的基本技能,搭配内在奖励机制使用强化学习训练代理,在学会技能后,我们使用大型语言模型建立技能图模型,并提出技能搜索算法为代理生成适当的技能计划。在实验中,我们成功的完成了 24 个不同的 Minecraft 任务,并得到了比基线算法更好的表现。
Mar, 2023
在开放世界中,我们介绍了一个适应新颖性的规划领域模型的方法,通过检测行动执行的观察值和环境模型的预期值之间的差异来推断新颖性的存在,并通过启发式导向的模型改变搜索来修订模型。我们在标准的强化学习基准 CartPole 问题上进行实证评估,结果表明我们的方法可以快速且可解释地处理一类新颖性。
Mar, 2023