DreamerV2 是一种基于 world models 且在离线的训练集上通过 reinforcement learning 进行策略 (即行为) 学习的智能体,用于通过对 compact latent space 进行预测,实现从 Atari 游戏或连续动作任务的图像输入中进行行为学习的高效模型,实现了在 55 个任务中的 human-level 的性能,获得了与 IQN 和 Rainbow 类似的结果。
Oct, 2020
本文介绍了 Dreamer 算法在物理机器人上应用的实验,证明了该算法能够使得机器人在真实世界中进行快速学习和适应,同时建立了实际环境下世界模型应用于机器人学习的强基线。
Jun, 2022
WorldDreamer 是一个创新的全球模型,通过将视觉输入映射为离散标记并预测掩码标记,将世界建模作为无监督的视觉序列建模挑战,实现对一般世界物理和运动的全面理解,并在视频生成方面具有卓越的性能。
Jan, 2024
本研究探索从梦境环境到真实环境的通用方法 Drean2Real。借鉴于领域随机化,结合使用丢失(Dropout)技术,我们使用具有可配置参数的世界模型训练来创建多样的梦境环境,提高控制器从神经网络梦境环境到现实环境转移的能力,并证实了丢失梦幻世界技术是弥合梦境环境和现实环境的差距的有效技术。
Sep, 2021
提出了一种新的强化学习方法 DreamingV2,它是 DreamerV2 和 Dreaming 的协作扩展,与 DreamingV2 的离散表示和 Dreaming 的无重构目标相比,DreamingV2 在 3D 机器人臂任务上取得了最佳成绩,适用于描述不连续环境的离散表示以及管理复杂视觉观察的无重构方式,是一种可靠的机器人学习解决方案。
Mar, 2022
使用潜意识想象力,在学习世界模型的基础上,Dreamer 这一强化学习代理能够纯粹通过图像解决长周期任务,具有数据效率高,计算时间短和最终性能强等优势。
Dec, 2019
在强化学习中,样本效率是一个关键挑战。本研究引入了 CoDreamer,这是 Dreamer 算法在多智能体环境中的扩展,利用图神经网络构建了一个双层通信系统来解决部分可观测性和智能体合作等问题。我们证明了 CoDreamer 比使用 Dreamer 的简单方法具有更强的表达能力,并在各种多智能体环境中展示了其优越性能。
Jun, 2024
MuDreamer 是一种强大的强化学习代理,它在 DreamerV3 算法的基础上通过学习一种无需重建输入信号的预测世界模型,改善了 Dreamer 在面对视觉干扰时感知关键元素的能力。
May, 2024
通过遗传算法,同一物体的不同部分可以被联合训练,得到与分开训练相媲美的性能,该研究进一步证明了深度神经进化在复杂异构体系结构下的有效性。
Apr, 2019
本文介绍了一种基于 Transformer 模型的模型驱动强化学习代理 TransDreamer,该代理在 2D 视觉和 3D 第一人称视觉强化学习任务中表现优于传统的 Dreamer 代理,并且实现了长程记忆访问的记忆推理。
Feb, 2022