METRA: 基于度量感知抽象的可扩展无监督强化学习
本篇论文研究了如何通过自主互动学习动态距离,并使用它们来提供良好的奖励函数,以便无需人为设计奖励函数或目标示例,使用半监督学习方法在实际机器人和仿真环境中有效地执行复杂任务。
Jul, 2019
本文探究了深度强化学习与基于物理原理的动画学习中的RL环境设计对其表现的影响及如何通过状态表示、奖励结构等因素的选择优化其效果,特别强调其对学习连续动作控制问题的应用的重要性。
Oct, 2020
该研究提出了一种基于模型的离线RL算法,该算法可扩展应用于高维视觉观测空间,通过学习潜在状态动力学模型并在潜在空间中表示不确定性来克服图像观测的挑战,并在多项具有挑战性的基于图像的移动和操纵任务中取得了优异的表现。
Dec, 2020
本文提出了使用线性探测任务评估强化学习中视觉预训练算法效果的方法,通过与实际下游控制表现的相关性进行实验,优化了现有自监督学习配方的方法,突出了前向模型、视觉主干大小和无监督目标的重要性。
Aug, 2022
本文提出了一种基于无监督RL策略的数据高效视觉控制的方法,通过使用Dyna-MPC等组件的预训练来实现更快的任务适应,并且在大规模实证研究的基础上建立了一种强化学习方法,可以使无监督设计策略的性能大大提高。
Sep, 2022
本文提出了一种新型的3D-SGRL体系结构,引入Subequivariant Transformer (SET) 及几何对称性,用于广义物体的RL训练;在单任务、多任务和零样本泛化情形中验证过程证明了算法比现有方法更具实用性。
May, 2023
强化学习算法在尺度递增和非结构化观测方面表现良好的方法,能够有效利用外部知识构建预测结构,并提供环境和算法供研究无结构观测向量和平面动作空间的缩放问题。
Nov, 2023
通过学习结构化表示并利用方向性移动跨越学习的潜在空间,我们提出了一种新的无监督框架,用于从无标签的离线数据中预训练能够捕捉多样化、最优且长程行为的通用策略,并可以在零样本方式下快速适应任意新任务。在模拟机器人的运动和操作基准测试中的实验证明,我们的无监督策略可以以零样本的方式解决目标有条件的和通用 RL 任务,甚至经常优于针对每个场景专门设计的先前方法。
Feb, 2024
无监督的目标条件增强学习(GCRL)是一种有前途的方法,可以在没有外部监督的情况下开发多样化的机器人技能。本文提出了一种新颖的无监督GCRL方法,利用时间距离感知表示(TLDR),通过选择远离的目标进行探索并计算基于时间距离的内在探索奖励和目标达成奖励,以克服其他方法在复杂环境中涵盖广泛状态的限制。实验结果表明,我们的方法在六个模拟机器人运动环境中显著优于之前的无监督GCRL方法,可以实现多样的状态。
Jul, 2024