学习潜在动态健壮表示的世界模型

May, 2024

学习潜在动态健壮表示的世界模型

Learning Latent Dynamic Robust Representations for World Models

Ruixiang Sun, Hongyu Zang, Xin Li, Riashat Islam

TL;DR利用视觉模型仿真提升强化学习效果，通过空时屏蔽策略和混合循环状态空间模型来准确捕捉环境的重要特征，以提高策略的学习与表现。

Abstract

visual model-based reinforcement learning (mbrl) promises to encapsulate agent's knowledge about the underlying dynamics of the environment, enabling learning a world model as a useful planner. However, top

visual model-based reinforcement learning mbrl spatio-temporal masking strategy hybrid recurrent state-space model maniskill

发现论文，激发创造

DreamerPro: 无需重建的基于模型的原型表示强化学习

本研究旨在提高基于模型的强化学习代理在处理视觉干扰方面的鲁棒性。我们提出了一种从世界模型的循环状态中学习原型表示的方法，将过去的观察和动作中的时间结构提取为原型。DreamerPro 模型通过将 Dreamer 与原型组合起来，在标准设置和存在复杂背景干扰的情况下都取得了大幅性能提高。

Oct, 2021

感知、想象、行动：多模态感知改进基于模型的自主竞赛强化学习

该研究提出了一种自监督传感器融合技术，将自身视觉 LiDAR 和 RGB 相机观测数据相结合，应用于模型驱动的强化学习领域，通过提高状态估计来改善其准确性，并在零样本场景下验证了其有效性。

May, 2023

隐空间中的基于模型的规划的时间预测编码

本文使用时间预测编码等方法，构建了一种信息论方法的强化学习模型，可帮助解决高维度观测值与复杂背景的问题。

Jun, 2021

面具世界模型的视觉控制

通过自编码器和动态学习的分离以及辅助奖励预测目标的引入，提出了一种新的视觉模型 RL 框架，取得了 Meta-world 和 RLBench 的 50 项任务中，81.7% 的成功率的表现。

Jun, 2022

TransDreamer：使用 Transformer World 模型的强化学习

本文介绍了一种基于 Transformer 模型的模型驱动强化学习代理 TransDreamer，该代理在 2D 视觉和 3D 第一人称视觉强化学习任务中表现优于传统的 Dreamer 代理，并且实现了长程记忆访问的记忆推理。

Feb, 2022

RePo: 通过正则化后验可预测性提高强化学习模型的弹性

这篇论文提出了一种视觉模型驱动的强化学习方法，它学习到了一个对噪声和干扰具有弹性的潜在表示，通过鼓励表示能够最大程度地预测动态和奖励，并在观察和潜在表示之间限制信息流。此方法对于视觉干扰具有显著的抵抗力，在动态环境中能够有效运行。此外，作者还提出了一种简单的无奖励对齐过程，使得编码器能够在测试时进行快速适应，无需重新学习动态和策略。这项工作是使模型驱动的强化学习在动态多样的领域中成为实用和有用工具的一步，作者在模拟基准测试以及具有噪声电视背景的真实环境中展示了其有效性。

Aug, 2023

无需重构潜在想象的基于模型的强化学习

本文提出了一种无解码器的扩展 Dreamer（基于图像的模型基强化学习方法）来提高机器人学习效率，并在 5 个仿真机器人任务中表现出更好的性能，主要使用了对比学习方法和自编码器神经网络技术。

Jul, 2020

掌握记忆任务的世界模型

通过在模型基础强化学习代理的世界模型中集成一种新的状态空间模型，在解决涉及行动和结果之间存在较大时间间隔或需要回忆遥远观察来指导当前行动的任务方面提出了一种名为 R2I 的新方法，该集成旨在提高长期记忆和长期视野信用分配，系统演示了 R2I 不仅在具有挑战性的内存和信用分配强化学习任务（如 BSuite 和 POPGym）方面树立了新的最新技术，还在 Memory Maze 等复杂内存领域展示了超人类表现，同时在 Atari 和 DMC 等经典强化学习任务中表现出可比较的性能，显示出 R2I 方法的普适性，此外，我们还表明 R2I 比最新技术的模型基础强化学习方法 DreamerV3 更快，可以更快地收敛。

Mar, 2024

学习不带重建的强化学习不变表示

研究如何利用表示学习加速深度强化学习，学习能够为任务控制提供有效的潜在表示并具有与任务无关的不变性的表示方法，使用双模拟量度量在连续 MDP 状态之间的行为相似度，学习出能够仅编码来自观测的任务相关信息的健壮潜在表示，该方法通过训练编码器使潜在空间的距离等于状态空间中的双模拟距离，并在修改版的可视化 MuJoCo 任务中证明了其成功地去除任务无关信息且达到了先进技术的表现，测试了第一人称高速公路驾驶任务，其中方法学习了对云、天气和时间的不变性，最后提供了从双模拟度量的属性推导的泛化结果和与因果推断的联系。

Jun, 2020

MuDreamer: 无需重建学习预测性世界模型

MuDreamer 是一种强大的强化学习代理，它在 DreamerV3 算法的基础上通过学习一种无需重建输入信号的预测世界模型，改善了 Dreamer 在面对视觉干扰时感知关键元素的能力。

May, 2024