梦想适应：通过潜在目标想象和马尔可夫决策过程想象的元强化学习

Nov, 2023

梦想适应：通过潜在目标想象和马尔可夫决策过程想象的元强化学习

Dream to Adapt: Meta Reinforcement Learning by Latent Context Imagination and MDP Imagination

Lu Wen, Songan Zhang, H. Eric Tseng, Huei Peng

TL;DRMetaDreamer 是一种基于上下文的元强化学习算法，通过元想象和 MDP 想象来减少实际训练任务和数据的需求，在学习未知任务时通过从类似任务中转移先前学习的知识，实验结果表明 MetaDreamer 在数据效率和插值推广方面胜过现有的方法。

Abstract

meta reinforcement learning (Meta RL) has been amply explored to quickly learn an unseen task by transferring previously learned knowledge from similar tasks. However, most state-of-the-art algorithms require the meta-training tasks to have a dense coverage on the task distribution and

meta reinforcement learning metadreamer context-based meta rl algorithm meta-imagination mdp-imagination

发现论文，激发创造

控制梦境：通过潜在想象学习行为

使用潜意识想象力，在学习世界模型的基础上，Dreamer 这一强化学习代理能够纯粹通过图像解决长周期任务，具有数据效率高，计算时间短和最终性能强等优势。

Dec, 2019

元强化学习作为任务推断

本文提出一种在元强化学习中用于解决任务信息受限问题的方法，通过利用各种特权信息，分别学习策略和任务信念来解决部分可观测马尔可夫决策问题，从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。

May, 2019

无需重构潜在想象的基于模型的强化学习

本文提出了一种无解码器的扩展 Dreamer（基于图像的模型基强化学习方法）来提高机器人学习效率，并在 5 个仿真机器人任务中表现出更好的性能，主要使用了对比学习方法和自编码器神经网络技术。

Jul, 2020

MELD: 通过潜在状态模型从图像中进行元强化学习

本文介绍了一种基于元学习的，使用潜在状态模型从图像中加速学习的方法，该方法被用于实现机器人在执行任务时快速获得新技能，该算法优于以前的元再强化学习方法，并且已经在真实世界的机器人控制设置中进行了训练。

Oct, 2020

多视角梦境：对比学习的多视角世界模型

本文提出了一个新的强化学习代理，Multi-View Dreaming，用于从多视角观测中进行综合识别和控制。我们使用对比学习来训练不同视角之间的共享潜在空间，并展示了如何使用专家产品方法来集成和控制多个视角的概率分布的潜在状态。我们还提出了 Multi-View DreamingV2，它使用分类分布来建模潜在状态，并证明该方法在实际机器人控制任务中优于现有方法的简单扩展。

Mar, 2022

强化学习学习

本文提出了一种名为深度元强化学习的方法，该方法使用递归网络，在一个强化学习算法上进行训练，但其递归动态实现第二个、完全分离的强化学习过程，通过一系列七个验验证明了这种方法的潜在优势并提出了其可能引发的神经科学方面的重要影响。

Nov, 2016

高斯任务上下文与技能的元强化学习解耦

离线元强化学习方法（即通过先前经验适应未见的目标任务）在机器人控制任务中至关重要。本文提出了一种名为分离式元强化学习（DCMRL）的框架，通过对任务上下文和技能的学习和探索进行量化和离散化，从而获取可推广的先前经验并在元测试阶段实现对未见目标任务的有效适应。实验证明，DCMRL 比先前的元强化学习方法具有更具推广性的先前经验，并在导航和机器人操纵连续控制任务中更加有效。

Dec, 2023

带潜在变量高斯过程的元强化学习

利用层级潜变量模型，自动推断任务之间的关系并应用于模型强化学习中，从而实现在小规模数据集上的元学习，有效提高数据利用率，解决新任务的平均交互时间缩短高达 60%。

Mar, 2018

TransDreamer：使用 Transformer World 模型的强化学习

本文介绍了一种基于 Transformer 模型的模型驱动强化学习代理 TransDreamer，该代理在 2D 视觉和 3D 第一人称视觉强化学习任务中表现优于传统的 Dreamer 代理，并且实现了长程记忆访问的记忆推理。

Feb, 2022

通过模型识别和经验再标记实现对分布偏移鲁棒的元强化学习

在本文中，我们提出了基于模型识别和经验重新标注（MIER）的元强化学习算法，它是一种有效的算法，可以在测试时面对分布外的任务进行良好拟合，而无需使用元强化学习

Jun, 2020