该研究探索了如何利用半监督式模仿学习的方法,在游戏领域中通过预训练行为先验模型来实现强化学习,从而达到人类甚至更高的行为水平。
Jun, 2022
本文介绍了一种通过生成式预训练学习得到的视觉表示,用于有效地加速并提高多种任务下视觉增强学习系统性能和效率的框架。我们在视频数据上预训练了一个无动作潜在视频预测模型,并将这些表示用于未知环境下的学习操作条件下的世界模型。我们还引入了一个新的架构,该架构在预训练的无动作预测模型的基础上堆叠了一个动作条件潜在预测模型,以更好地实现探索。同时也提出了基于视频的内在激励奖励机制,利用预训练表示的优势,有效提升了数据利用率和最终权能的完成度。
Mar, 2022
通过从无动作演示中推断潜在动作,我们介绍了一种名为 LAPO 的方法,它可以有效地预训练深度强化学习模型,并且可以快速微调以实现专家级表现。这为在网上大量的无动作演示中预训练强大而通用的强化学习模型提供了重要基础。
Dec, 2023
通过使用离线数据集在真实机器人上对世界模型进行预训练,然后通过使用学习模型进行在线数据集的规划和微调,本文试图解决强化学习在真实机器人上训练时的数据效率问题,以及模型在训练和推理过程中的分布偏移问题,该方法在模拟环境和真实机器人上的视觉 - 动作控制任务上进行了验证,发现即使离线数据有限,该方法也能实现对已知和未知任务的少次数微调。
Oct, 2023
该研究提出了一种称为协作世界模型(CoWorld)的转移学习方法,在离线数据集下为视觉强化学习模型提高性能,并成功缓解了价值函数的过高估计问题。
May, 2023
本研究通过开发一种基于时间差分学习的系统,在机器人离线增强学习中利用大规模人类视频数据集,展示了通过视频数据集进行价值学习相较于其他视频数据学习方法更具有推广性,并且与机器人多样化数据的离线增强学习方法结合,产生在操作任务中执行更好、更稳定和具有广泛泛化性能的价值函数和策略。
Sep, 2023
本文研究利用野外数据预训练 world models 来提高 model-based reinforcement learning 在多个领域的样本效率,并引入了一种名为 Contextualized World Models 的模型来解决野外数据的语境多样性问题。实验结果表明,使用带有 Contextualized World Models 的野外视频预训练可以显著提高机器人操作、运动和自动驾驶等多个领域内 MBRL 的样本效率。
提出了一种新的方法来学习依赖任务完成的未来动作序列预测的潜在世界模型,该模型适应地关注任务相关的动态学习,并同时充当稀疏奖励下计划的有效启发式方法,通过挑战性的视觉目标完成任务的评估,我们发现该方法较之前的无模型方法在性能上有了显著提高。
Dec, 2020
本研究探讨了使用无动作信息的离线数据集来提高在线强化学习的潜力,提出了一种名为 “AF-Guide” 的方法,并通过实验证明其可以提高在线训练的效率和性能。
Jan, 2023
基于 OWL-ViT 模型,我们通过添加一个 Transformer 解码器来成功将开放世界模型应用于视频以实现开放世界定位,从而实现了更好的时间一致性和更强的开放世界能力。
Aug, 2023