基于广义占据模型的可转移强化学习

Mar, 2024

基于广义占据模型的可转移强化学习

Transferable Reinforcement Learning via Generalized Occupancy Models

Chuning Zhu, Xinqi Wang, Tyler Han, Simon S. Du, Abhishek Gupta

TL;DR智能代理应该是综合性的，能够快速适应和推广不同的任务，提出了一种新的模型类别 - 广义占据模型（GOM），它在保留模型强化学习的综合性的同时避免累积误差，通过直接建模长期结果，GOM 既避免了累积误差，又在任意奖励函数下保持了综合性。

Abstract

intelligent agents must be generalists - showing the ability to quickly adapt and generalize to varying tasks. Within the framework of reinforcement learning (RL), →

intelligent agents reinforcement learning model-based rl occupancy models long-term outcomes

发现论文，激发创造

数据有效的强化学习并发信用分配

本文提出了一种基于占据模型的强化学习算法，通过更新占据模型可实现环境状态的均匀采样，从而在经典的连续行动基准问题上提高了采样效率。

May, 2022

通过过渡占据匹配 (TOM) 学习具有策略感知的模型，用于模型驱动强化学习

本文提出了一种新的模型学习目标 TOM，利用重要性加权最大似然估计从回放缓冲中识别与策略相关的过去经验，使模型学习更专注于策略相关的经验，从而使策略更快地完成任务并获得更高的奖励。

May, 2023

通用效用的强化学习：更简单的方差缩减和大状态行动空间

我们提出了一种更简单的单循环，无参数归一化策略梯度算法，用于解决具有一般效用的强化学习问题，其中包括约束强化学习，纯探索以及从演示中学习等问题，同时通过线性函数逼近解决大状态 - 动作空间的设置，并展示了简单的策略梯度法的样本复杂度。

Jun, 2023

想象价值梯度：基于模型的策略优化和可转移的潜在动态模型

本文研究如何通过模型驱动的增强学习方法促进任务转移，提出了基于动作条件的预测模型学习算法，用于机器人操作任务中的策略优化并在转移学习场景中取得了显著的学习速度提升。

Oct, 2019

用于强化学习的快速生成模型的学习和查询

在模型基强化学习中，精心设计的生成模型 —— 状态空间模型可以学习和操作紧凑的状态表述，并且显著降低动作序列预测的计算成本。在广泛的实验中，状态空间模型可以精确捕捉 Atari 游戏的动态，并且提供了高速计算，这使它们在强化学习的决策中具有实用价值。

Feb, 2018

具有通用效用的可扩展多智能体强化学习

我们研究了具有通用效用的可扩展多代理强化学习，通过利用网络结构的空间相关性衰减特性提出了一种具有阴影奖励和本地策略的可扩展分布式策略梯度算法，该算法不需要全观察每个代理的情况，可以最大化团队的平均局部效用函数。

Feb, 2023

使用几何策略组合的广义策略改进

本文介绍了一种基于几何地平线模型来提高政策表现的方法，该方法可以有效的评估非马尔科夫策略并通过广义策略提升来优化出新的马尔可夫策略，此方法证明了在深度强化学习中取得了不错的效果。同时，文章提供了对 GHM 训练方法的分析和收敛性研究。

Jun, 2022

针对鲁棒的基于模型的离线强化学习的领域通用性

本文介绍了一种多演示者离线强化学习算法，该算法能够自然地解决不同演示者产生不同数据分布的问题，并提出了一种基于 Risk Extrapolation 的领域不变模型离线强化学习方法，结果表明，该方法能够提高领域泛化性能，可以改善策略学习过程的稳定性，并可以潜在地实现探索增强。

Nov, 2022

大型状态空间下的分布鲁棒基于模型的强化学习

提出了一种基于高斯过程和最大方差缩减算法的模型基础方法，用于学习多输出名义转移动力学，克服了强化学习中的若干挑战，并在分布移位方面展示了算法的鲁棒性以及样本数量上的优越性。

Sep, 2023

OMPO：一种面向策略和环境变化的强化学习统一框架

用各种策略和动力学集合的环境交互数据训练强化学习策略面临着基本的挑战，现有研究往往忽视由策略或动力学变化引起的分布差异，或依赖于带有任务先验知识的专门算法，从而导致子优的策略表现和高学习方差。本文提出一种统一的在线强化学习策略学习策略和动力学变化多样的策略：转移占用匹配。对此，我们通过考虑转移占用差异引入了一个代理策略学习目标，并通过双重重构将其转化为可处理的极小极大优化问题。我们的方法名为占用匹配策略优化（OMPO），它具有专门的演员 - 评论家结构，配备分布鉴别器和小型本地缓冲区。我们在 OpenAI Gym、Meta-World 和 Panda Robots 环境中进行了大量实验，包括在稳态和非稳态动力学下的策略变化以及领域自适应。结果表明，OMPO 在所有设置中优于不同类别的专业基准。我们还发现，当与领域随机化结合时，OMPO 表现出特别强的性能，突显了其在基于强化学习的机器人应用中的潜力。

May, 2024