和谐世界模型：提高基于模型的强化学习的样本效率

Sep, 2023

和谐世界模型：提高基于模型的强化学习的样本效率

Harmony World Models: Boosting Sample Efficiency for Model-based Reinforcement Learning

Haoyu Ma, Jialong Wu, Ningya Feng, Jianmin Wang, Mingsheng Long

TL;DR通过进行实证调查，这篇论文深入研究了世界模型中观察建模和奖励建模的作用，并发现在调和观察和奖励建模之间的干扰方面存在更高效的模型驱动强化学习的潜力。借助这些发现，提出了一种称为 Harmony World Models（HarmonyWM）的简单而有效的方法，通过引入一个轻量级的调和器来保持世界模型学习中两个任务之间的动态平衡。实验结果表明，基于 HarmonyWM 方法的基础模型驱动强化学习方法在三个视觉控制领域取得了 10% 至 55% 的绝对性能提升。

Abstract

model-based reinforcement learning (MBRL) holds the promise of sample-efficient learning by utilizing a world model, which models how the environment works and typically encompasses components for two tasks:

model-based reinforcement learning world model observation modeling reward modeling harmony world models

发现论文，激发创造

深入探索层级世界模型在强化学习中的限制

层次模型强化学习 (HMBRL) 旨在将模型强化学习 (MBRL) 的更好的样本效率与层次化强化学习 (HRL) 的抽象能力结合起来，以高效地解决复杂任务。我们在这项工作中描述了一个新颖的 HMBRL 框架，并进行了全面评估。通过构建模拟不同时间抽象水平下环境动态的层次化世界模型来补充 HRL 的多层次决策制定方式。这些模型用于训练一系列以自上而下方式进行通信的代理，向下级代理提出目标。本研究的一个重点是探索静态且环境无关的时间抽象，从而允许在层次结构中同时训练模型和代理。与大多数以目标条件化的 H (MB) RL 方法不同，这也导致了较低维度的抽象动作。尽管我们的 HMBRL 方法在最终回合收益方面表现没有传统方法好，但它成功地利用紧凑、低维度的抽象动作在两个抽象层次上进行决策。我们在全面的实验中揭示了提高我们方法性能的一个核心挑战，即在我们的世界模型堆栈的抽象层级上进行模型利用。我们对这个问题进行了深入研究，讨论了它对领域的影响，并提出了克服这一挑战的未来研究方向。通过分享这些发现，我们旨在为改进 HMBRL 方法论的广泛讨论做出贡献，并帮助开发更有效的复杂决策环境的自主学习系统。

Jun, 2024

Ready Policy One: 通过积极学习构建世界

本文介绍了 Ready Policy One (RP1)，将基于模型的强化学习视为一个主动学习问题，利用混合目标函数，在优化期间关键性的适应，以便在学习的不同阶段权衡奖励与探索，同时介绍了一个原则性的机制以停止样本收集。在多个连续控制任务中对方法进行了严格评估，并证明了与现有方法相比的显著增益。

Feb, 2020

基于模型的前瞻性强化学习

本论文结合模型推理控制与模型无关的深度强化学习方法，提出一种更加高效的学习框架，并在标准的连续控制基准任务中取得了与模型无关方法相当的性能表现。

Aug, 2019

基于模型的强化学习基准测试

本文为了推动模型基强化学习（Model-based Reinforcement Learning, MBRL）的研究，收集了大量 MBRL 算法，并提出了 18 个为 MBRL 特别设计的基准环境来评估这些算法，并探讨了 MBRL 算法之间的主要差异和研究挑战。

Jul, 2019

潜在世界模型对于连续强化学习的惊人有效性

本文研究了基于模型的强化学习方法，特别是对于持续强化学习的世界模型的应用。结论表明，使用世界模型是一种简单且有效的持续强化学习基准。

Nov, 2022

模型是否应该准确？

通过引入基于元学习的算法，该文探讨了在复杂或动态环境中，即使存在不完美的模型，不严格追求模型准确度也能提高模型的实用性，并通过实验验证了算法的有效性。

May, 2022

通过世界模型进行延迟观察的强化学习

在标准强化学习设置中，通过立即获得行为后效果的反馈是常见的假设；然而，由于物理限制，在实践中这种假设可能并不成立，可能严重影响强化学习算法的性能。本文关注部分可观测环境中观察延迟的处理。我们提出利用过去观测和学习动态的世界模型来处理观察延迟。通过将延迟型 POMDP 降低为具有世界模型的延迟型 MDP，我们的方法可以有效处理部分可观察性，在现有方法在可观察性降低时实现次优性能甚至迅速降级的情况下表现出更好的性能。实验证明，我们的方法之一可以比天真的基于模型的方法的表现高出 30%。此外，我们首次在基于视觉输入的延迟环境上评估了我们的方法，展示了延迟感知的视觉观察强化学习。

Mar, 2024

具有结构化世界模型的样本高效机器人学习

研究利用特征空间和世界模型提高机器人在可变形物体折叠任务中的学习效率和性能，结果发现使用特征点可以将最佳模型的性能提升 50％，学习效率也可以得到提升。

Oct, 2022

训练鲁棒性世界模型的无奖励课程

本文提出了一种名为 WAKER 的基于 minimax 遗憾目标的算法，可在 reward-free 环境下有效地学习鲁棒的世界模型，以提高不同环境下的机器人性能。

Jun, 2023

世界模型

本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型，并利用该世界模型进行无监督学习，学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入，我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练，并将该策略传输回实际环境中。

Mar, 2018