掌握记忆任务的世界模型

Mar, 2024

Mastering Memory Tasks with World Models

Mohammad Reza Samsami, Artem Zholus, Janarthanan Rajendran, Sarath Chandar

TL;DR通过在模型基础强化学习代理的世界模型中集成一种新的状态空间模型，在解决涉及行动和结果之间存在较大时间间隔或需要回忆遥远观察来指导当前行动的任务方面提出了一种名为 R2I 的新方法，该集成旨在提高长期记忆和长期视野信用分配，系统演示了 R2I 不仅在具有挑战性的内存和信用分配强化学习任务（如 BSuite 和 POPGym）方面树立了新的最新技术，还在 Memory Maze 等复杂内存领域展示了超人类表现，同时在 Atari 和 DMC 等经典强化学习任务中表现出可比较的性能，显示出 R2I 方法的普适性，此外，我们还表明 R2I 比最新技术的模型基础强化学习方法 DreamerV3 更快，可以更快地收敛。

Abstract

Current model-based reinforcement learning (MBRL) agents struggle with long-term dependencies. This limits their ability to effectively solve tasks involving extended time gaps between actions and outcomes, or ta

model-based reinforcement learning long-term dependencies state space models temporal coherence long-horizon credit assignment

发现论文，激发创造

面向世界模型骨干网络的对比：循环神经网络，Transformer 和 S4

本文探讨了替代循环神经网络的 S4 模型和 Transformers 模型在增强学习模型中的应用及其优势，提出了第一个基于 S4 模型的世界模型，S4WM，其在各项测试中展现了超越 Transformers 的长期记忆和训练效率，结果为模型建立打下良好基础。

Jul, 2023

学习潜在动态健壮表示的世界模型

利用视觉模型仿真提升强化学习效果，通过空时屏蔽策略和混合循环状态空间模型来准确捕捉环境的重要特征，以提高策略的学习与表现。

May, 2024

强化学习中的快速遗忘记忆

强化学习中的记忆模型的算法，Fast and Forgetful Memory，通过添加结构先验以及具有对数时间和线性空间复杂度的特点，在循环强化学习算法中实现了更高的奖励，并实现了比循环神经网络 (RNNs) 快两个数量级的训练速度。

Oct, 2023

学习，快与慢：面向动态环境的目标导向基于记忆的方法

本研究针对基于模型的下一状态预测和状态价值预测收敛缓慢的问题，使用并行内存检索系统进行基于模型的规划，使用神经网络指导代理的行为，通过基于目标的探索在线训练，取得了 92% 的解决率，显示出 RL 模型应用于目标和子目标规划的未来。

Jan, 2023

使用本地遗忘的回放缓冲器进行自适应深度模型强化学习

本文探讨了在深度强化学习中，如何使用改进后的 replay buffer 来解决 catastrophic forgetting 和 stale data 的问题，从而实现在环境变化时能够更加高效地应对。

Mar, 2023

关系递归神经网络

研究了基于记忆的神经网络在处理具有复杂关系的任务时的能力，提出了一种新的内存模块 RMC，它使用多头点积注意力机制来加强记忆之间的交互，达到了在多个领域的最先进结果。

Jun, 2018

离散世界模型掌握 Atari

DreamerV2 是一种基于 world models 且在离线的训练集上通过 reinforcement learning 进行策略 (即行为) 学习的智能体，用于通过对 compact latent space 进行预测，实现从 Atari 游戏或连续动作任务的图像输入中进行行为学习的高效模型，实现了在 55 个任务中的 human-level 的性能，获得了与 IQN 和 Rainbow 类似的结果。

Oct, 2020

TransDreamer：使用 Transformer World 模型的强化学习

本文介绍了一种基于 Transformer 模型的模型驱动强化学习代理 TransDreamer，该代理在 2D 视觉和 3D 第一人称视觉强化学习任务中表现优于传统的 Dreamer 代理，并且实现了长程记忆访问的记忆推理。

Feb, 2022

大型语言模型是半参数强化学习代理

提出一种新颖的可进化的 LLM（Large Language Model）智能体框架，称为 REMEMBERER，并将 LLM 配备了长期记忆，以便在不同的任务目标中利用过去的经验，这胜过具有固定示例或配备瞬态工作内存的 LLM 智能体。通过引入具有经验记忆的强化学习（RLEM）来更新记忆，整个系统可以从成功和失败的经验中学习，并在不微调 LLM 参数的情况下发展其能力。在两种强化学习任务集上进行了大量实验来评估所提出的框架，结果表明，通过不同的初始化和训练集，平均结果超过了先前的 SOTA 4％和 2％，证明了 REMEMBERER 的优越性和鲁棒性。

Jun, 2023

DreamerPro: 无需重建的基于模型的原型表示强化学习

本研究旨在提高基于模型的强化学习代理在处理视觉干扰方面的鲁棒性。我们提出了一种从世界模型的循环状态中学习原型表示的方法，将过去的观察和动作中的时间结构提取为原型。DreamerPro 模型通过将 Dreamer 与原型组合起来，在标准设置和存在复杂背景干扰的情况下都取得了大幅性能提高。

Oct, 2021