Vid2Act:激活离线视觉强化学习视频
该研究提出了一种基于模型的离线RL算法,该算法可扩展应用于高维视觉观测空间,通过学习潜在状态动力学模型并在潜在空间中表示不确定性来克服图像观测的挑战,并在多项具有挑战性的基于图像的移动和操纵任务中取得了优异的表现。
Dec, 2020
本文介绍了一种通过生成式预训练学习得到的视觉表示,用于有效地加速并提高多种任务下视觉增强学习系统性能和效率的框架。我们在视频数据上预训练了一个无动作潜在视频预测模型,并将这些表示用于未知环境下的学习操作条件下的世界模型。我们还引入了一个新的架构,该架构在预训练的无动作预测模型的基础上堆叠了一个动作条件潜在预测模型,以更好地实现探索。同时也提出了基于视频的内在激励奖励机制,利用预训练表示的优势,有效提升了数据利用率和最终权能的完成度。
Mar, 2022
该研究提出了一种称为协作世界模型(CoWorld)的转移学习方法,在离线数据集下为视觉强化学习模型提高性能,并成功缓解了价值函数的过高估计问题。
May, 2023
本文研究利用野外数据预训练 world models 来提高 model-based reinforcement learning 在多个领域的样本效率,并引入了一种名为 Contextualized World Models 的模型来解决野外数据的语境多样性问题。实验结果表明,使用带有 Contextualized World Models 的野外视频预训练可以显著提高机器人操作、运动和自动驾驶等多个领域内 MBRL 的样本效率。
May, 2023
本研究通过开发一种基于时间差分学习的系统,在机器人离线增强学习中利用大规模人类视频数据集,展示了通过视频数据集进行价值学习相较于其他视频数据学习方法更具有推广性,并且与机器人多样化数据的离线增强学习方法结合,产生在操作任务中执行更好、更稳定和具有广泛泛化性能的价值函数和策略。
Sep, 2023
通过从无动作演示中推断潜在动作,我们介绍了一种名为LAPO的方法,它可以有效地预训练深度强化学习模型,并且可以快速微调以实现专家级表现。这为在网上大量的无动作演示中预训练强大而通用的强化学习模型提供了重要基础。
Dec, 2023
通过观察人类行为并将其翻译成可执行的动作,本研究介绍了一种基于视频学习的机器人框架Vid2Robot,它通过训练机器人模型利用人类视频和机器人轨迹数据集进行任务执行。该模型利用交叉注意力机制将提示视频特征融合到机器人的当前状态中,并生成能够模仿所观察任务的适当动作,大幅提升执行效果,同时显示着在真实世界应用中的潜力。
Mar, 2024
本研究解决了离线强化学习中建立通用智能体的难题,特别是在缺乏专家轨迹和普遍性任务泛化方面的局限。我们提出了JOWA模型,这是一种基于多个Atari游戏进行预训练的离线模型,能够学习通用表示和决策能力。实验证明,该模型在仅使用10%的离线数据情况下,表现超过现有基线,显示了其在新游戏上的高效迁移和优越泛化能力。
Oct, 2024
本研究解决了大型视频模型缺乏具身代理的具体应用问题,提出了一种通过自我探索直接将视频模型与连续动作对接的新方法。研究表明,该框架能够在没有外部监督的情况下解决复杂任务,其表现与多种基于专家演示的行为克隆基线相当或更优,具有重要的应用潜力。
Nov, 2024