提出了一种新的强化学习方法 DreamingV2,它是 DreamerV2 和 Dreaming 的协作扩展,与 DreamingV2 的离散表示和 Dreaming 的无重构目标相比,DreamingV2 在 3D 机器人臂任务上取得了最佳成绩,适用于描述不连续环境的离散表示以及管理复杂视觉观察的无重构方式,是一种可靠的机器人学习解决方案。
Mar, 2022
本文提出了一种无解码器的扩展 Dreamer(基于图像的模型基强化学习方法)来提高机器人学习效率,并在 5 个仿真机器人任务中表现出更好的性能,主要使用了对比学习方法和自编码器神经网络技术。
Jul, 2020
本研究旨在提高基于模型的强化学习代理在处理视觉干扰方面的鲁棒性。我们提出了一种从世界模型的循环状态中学习原型表示的方法,将过去的观察和动作中的时间结构提取为原型。DreamerPro 模型通过将 Dreamer 与原型组合起来,在标准设置和存在复杂背景干扰的情况下都取得了大幅性能提高。
Oct, 2021
使用潜意识想象力,在学习世界模型的基础上,Dreamer 这一强化学习代理能够纯粹通过图像解决长周期任务,具有数据效率高,计算时间短和最终性能强等优势。
Dec, 2019
DreamerV2 是一种基于 world models 且在离线的训练集上通过 reinforcement learning 进行策略 (即行为) 学习的智能体,用于通过对 compact latent space 进行预测,实现从 Atari 游戏或连续动作任务的图像输入中进行行为学习的高效模型,实现了在 55 个任务中的 human-level 的性能,获得了与 IQN 和 Rainbow 类似的结果。
Oct, 2020
本文提出了一个新的强化学习代理,Multi-View Dreaming,用于从多视角观测中进行综合识别和控制。我们使用对比学习来训练不同视角之间的共享潜在空间,并展示了如何使用专家产品方法来集成和控制多个视角的概率分布的潜在状态。我们还提出了 Multi-View DreamingV2,它使用分类分布来建模潜在状态,并证明该方法在实际机器人控制任务中优于现有方法的简单扩展。
本文介绍了 Dreamer 算法在物理机器人上应用的实验,证明了该算法能够使得机器人在真实世界中进行快速学习和适应,同时建立了实际环境下世界模型应用于机器人学习的强基线。
Jun, 2022
本文介绍了一种基于 Transformer 模型的模型驱动强化学习代理 TransDreamer,该代理在 2D 视觉和 3D 第一人称视觉强化学习任务中表现优于传统的 Dreamer 代理,并且实现了长程记忆访问的记忆推理。
Feb, 2022
利用视觉模型仿真提升强化学习效果,通过空时屏蔽策略和混合循环状态空间模型来准确捕捉环境的重要特征,以提高策略的学习与表现。
May, 2024
DreamerV3 是一种基于世界模型的通用、可扩展的算法,具有较好的数据效率和最终性能,在各种单一或混合任务中表现优异,能够解决困扰强化学习发展的一系列挑战。
Jan, 2023