学习潜在动态健壮表示的世界模型
本研究旨在提高基于模型的强化学习代理在处理视觉干扰方面的鲁棒性。我们提出了一种从世界模型的循环状态中学习原型表示的方法,将过去的观察和动作中的时间结构提取为原型。DreamerPro 模型通过将 Dreamer 与原型组合起来,在标准设置和存在复杂背景干扰的情况下都取得了大幅性能提高。
Oct, 2021
该研究提出了一种自监督传感器融合技术,将自身视觉 LiDAR 和 RGB 相机观测数据相结合,应用于模型驱动的强化学习领域,通过提高状态估计来改善其准确性,并在零样本场景下验证了其有效性。
May, 2023
通过自编码器和动态学习的分离以及辅助奖励预测目标的引入,提出了一种新的视觉模型 RL 框架,取得了 Meta-world 和 RLBench 的 50 项任务中,81.7% 的成功率的表现。
Jun, 2022
本文介绍了一种基于 Transformer 模型的模型驱动强化学习代理 TransDreamer,该代理在 2D 视觉和 3D 第一人称视觉强化学习任务中表现优于传统的 Dreamer 代理,并且实现了长程记忆访问的记忆推理。
Feb, 2022
这篇论文提出了一种视觉模型驱动的强化学习方法,它学习到了一个对噪声和干扰具有弹性的潜在表示,通过鼓励表示能够最大程度地预测动态和奖励,并在观察和潜在表示之间限制信息流。此方法对于视觉干扰具有显著的抵抗力,在动态环境中能够有效运行。此外,作者还提出了一种简单的无奖励对齐过程,使得编码器能够在测试时进行快速适应,无需重新学习动态和策略。这项工作是使模型驱动的强化学习在动态多样的领域中成为实用和有用工具的一步,作者在模拟基准测试以及具有噪声电视背景的真实环境中展示了其有效性。
Aug, 2023
本文提出了一种无解码器的扩展 Dreamer(基于图像的模型基强化学习方法)来提高机器人学习效率,并在 5 个仿真机器人任务中表现出更好的性能,主要使用了对比学习方法和自编码器神经网络技术。
Jul, 2020
通过在模型基础强化学习代理的世界模型中集成一种新的状态空间模型,在解决涉及行动和结果之间存在较大时间间隔或需要回忆遥远观察来指导当前行动的任务方面提出了一种名为 R2I 的新方法,该集成旨在提高长期记忆和长期视野信用分配,系统演示了 R2I 不仅在具有挑战性的内存和信用分配强化学习任务(如 BSuite 和 POPGym)方面树立了新的最新技术,还在 Memory Maze 等复杂内存领域展示了超人类表现,同时在 Atari 和 DMC 等经典强化学习任务中表现出可比较的性能,显示出 R2I 方法的普适性,此外,我们还表明 R2I 比最新技术的模型基础强化学习方法 DreamerV3 更快,可以更快地收敛。
Mar, 2024
研究如何利用表示学习加速深度强化学习,学习能够为任务控制提供有效的潜在表示并具有与任务无关的不变性的表示方法,使用双模拟量度量在连续 MDP 状态之间的行为相似度,学习出能够仅编码来自观测的任务相关信息的健壮潜在表示,该方法通过训练编码器使潜在空间的距离等于状态空间中的双模拟距离,并在修改版的可视化 MuJoCo 任务中证明了其成功地去除任务无关信息且达到了先进技术的表现,测试了第一人称高速公路驾驶任务,其中方法学习了对云、天气和时间的不变性,最后提供了从双模拟度量的属性推导的泛化结果和与因果推断的联系。
Jun, 2020
MuDreamer 是一种强大的强化学习代理,它在 DreamerV3 算法的基础上通过学习一种无需重建输入信号的预测世界模型,改善了 Dreamer 在面对视觉干扰时感知关键元素的能力。
May, 2024