学习无行动行动
本文提出了一种新的模仿学习方法,直接从状态观测推断潜在策略,并引入了一种方法来描述潜在动作对观测的因果影响,同时预测它们的可能性,从而确定潜在和实际行为之间的映射。本文在经典控制环境和平台游戏中评估了该方法,并表明它的性能优于标准方法。
May, 2018
本文介绍了一种基于人类经验学习实现强化学习的方法,该方法利用了人类视频经验中丰富的视觉信息,结合机器人自身收集的数据,在学习视觉技能方面取得了比常规方法更好的效果。
Nov, 2020
本文介绍了一种通过生成式预训练学习得到的视觉表示,用于有效地加速并提高多种任务下视觉增强学习系统性能和效率的框架。我们在视频数据上预训练了一个无动作潜在视频预测模型,并将这些表示用于未知环境下的学习操作条件下的世界模型。我们还引入了一个新的架构,该架构在预训练的无动作预测模型的基础上堆叠了一个动作条件潜在预测模型,以更好地实现探索。同时也提出了基于视频的内在激励奖励机制,利用预训练表示的优势,有效提升了数据利用率和最终权能的完成度。
Mar, 2022
Vid2Act是一种基于模型的强化学习方法,其使用世界模型作为行为学习的模拟器并使用它们来衡量动力学表示转移和策略转移的域相关性,以将有价值的动作条件动态和潜在有用的行动演示从离线到在线环境进行转移。
Jun, 2023
本文提出了一种基于视觉观测的学习方法,使用两阶段的 State-to-Go (STG) Transformer 训练出内在奖励进行强化学习,实现了利用仅有视频数据解决视觉强化学习任务的潜力,并在 Atari 和 Minecraft 等数据集上表现出了比基线更好的性能。
Jun, 2023
通过学习结构化表示并利用方向性移动跨越学习的潜在空间,我们提出了一种新的无监督框架,用于从无标签的离线数据中预训练能够捕捉多样化、最优且长程行为的通用策略,并可以在零样本方式下快速适应任意新任务。在模拟机器人的运动和操作基准测试中的实验证明,我们的无监督策略可以以零样本的方式解决目标有条件的和通用 RL 任务,甚至经常优于针对每个场景专门设计的先前方法。
Feb, 2024
通过学习一个多步效用函数来量化每个行动对智能体与专家的访问分布之间的差异,我们提出了DILO(从观测中进行双重模仿学习)算法,它可以利用任意次优数据学习模仿策略而不需要专家行动,从而有效地解决了高维观测问题,表现得更好。
Jun, 2024
本研究解决了现有视觉-语言-动作模型依赖于人工标签的问题,提出了一种从无标签互联网视频中学习的潜在动作预训练方法(LAPA)。该方法通过训练动作量化模型学习离散潜在动作,并在小规模机器人操作数据上微调模型,实验证明其在实际操作任务中显著优于现有技术,展现了利用网络规模数据进行机器人基础模型训练的潜力。
Oct, 2024
本文针对离线强化学习中使用静态数据集导致的政策生成不在分布内的问题,提出了一种新的方法——约束潜在动作策略(C-LAP)。通过学习观察与动作的联合分布生成模型,将政策学习视为一个受限目标,有效地消除了对贝尔曼更新的额外不确定性惩罚需求,并显著减少了学习政策所需的梯度步骤。实验表明,C-LAP与先进方法具有竞争力,特别是在具有视觉观察的数据集上表现优异。
Nov, 2024