通过过渡占据匹配 (TOM) 学习具有策略感知的模型，用于模型驱动强化学习

May, 2023

通过过渡占据匹配 (TOM) 学习具有策略感知的模型，用于模型驱动强化学习

TOM: Learning Policy-Aware Models for Model-Based Reinforcement Learning via Transition Occupancy Matching

Yecheng Jason Ma, Kausik Sivakumar, Jason Yan, Osbert Bastani, Dinesh Jayaraman

TL;DR本文提出了一种新的模型学习目标 TOM，利用重要性加权最大似然估计从回放缓冲中识别与策略相关的过去经验，使模型学习更专注于策略相关的经验，从而使策略更快地完成任务并获得更高的奖励。

Abstract

Standard model-based reinforcement learning (MBRL) approaches fit a transition model of the environment to all past experience, but this wastes model capacity on data that is irrelevant for policy improvement. We instead propose a new "→

model-based reinforcement learning transition occupancy matching importance weighted maximum-likelihood estimation replay buffer mujoco continuous robotic control tasks

发现论文，激发创造

基于广义占据模型的可转移强化学习

智能代理应该是综合性的，能够快速适应和推广不同的任务，提出了一种新的模型类别 - 广义占据模型（GOM），它在保留模型强化学习的综合性的同时避免累积误差，通过直接建模长期结果，GOM 既避免了累积误差，又在任意奖励函数下保持了综合性。

Mar, 2024

OMPO：一种面向策略和环境变化的强化学习统一框架

用各种策略和动力学集合的环境交互数据训练强化学习策略面临着基本的挑战，现有研究往往忽视由策略或动力学变化引起的分布差异，或依赖于带有任务先验知识的专门算法，从而导致子优的策略表现和高学习方差。本文提出一种统一的在线强化学习策略学习策略和动力学变化多样的策略：转移占用匹配。对此，我们通过考虑转移占用差异引入了一个代理策略学习目标，并通过双重重构将其转化为可处理的极小极大优化问题。我们的方法名为占用匹配策略优化（OMPO），它具有专门的演员 - 评论家结构，配备分布鉴别器和小型本地缓冲区。我们在 OpenAI Gym、Meta-World 和 Panda Robots 环境中进行了大量实验，包括在稳态和非稳态动力学下的策略变化以及领域自适应。结果表明，OMPO 在所有设置中优于不同类别的专业基准。我们还发现，当与领域随机化结合时，OMPO 表现出特别强的性能，突显了其在基于强化学习的机器人应用中的潜力。

May, 2024

模型基强化学习中解决客观差异的统一视角

模型驱动强化学习（MBRL）通过学习环境的显式模型，使智能体更具有样本效率、自适应性和可解释性。本研究提供了对 MBRL 中解决目标不匹配问题的多个解决方案类别的深入调查，并提出了一个分类以促进未来的研究。

Oct, 2023

Ready Policy One: 通过积极学习构建世界

本文介绍了 Ready Policy One (RP1)，将基于模型的强化学习视为一个主动学习问题，利用混合目标函数，在优化期间关键性的适应，以便在学习的不同阶段权衡奖励与探索，同时介绍了一个原则性的机制以停止样本收集。在多个连续控制任务中对方法进行了严格评估，并证明了与现有方法相比的显著增益。

Feb, 2020

MoMA: 基于模型的蜂道上升算法用于离线强化学习

利用模型为基础的镜像爬升算法 (MoMA) 在部分离线数据覆盖下，采用通用函数逼近能力，通过在策略评估步骤中的转移模型置信区间内的最小化过程来保守估计值函数，然后在策略改进步骤中使用通用函数逼近而不是常用的参数策略类，从而充分利用模型为基础方法中固有的无限制策略空间，并且通过对返回策略的次优性建立理论保证。

Jan, 2024

面向策略梯度方法的策略感知模型学习

本文研究了模型基强化学习中模型的学习，提出了基于 Policy-Aware Model Learning (PAML) 的带权损失函数来学习模型，结果证明该方法在某些基准问题上表现良好。

Feb, 2020

基于 LTL 规约的样本高效无模型强化学习及最优性保证

本研究提出一种基于强化学习的模型自由优化方法来学习行为策略，以最大化符合给定线性时态逻辑规范的概率。通过采用新型的产品 MDP、奖励结构和折扣机制，在各种 MDP 环境中进行实验，证明了其具有改进的样本效率和最优策略收敛性。

May, 2023

模型基强化学习的多时间步模型

模型驱动的强化学习中，通过使用多时间步目标训练一步预测模型来解决一步预测误差在轨迹增长时的累积问题，实验证明指数衰减权重能显著提高长期视野得分，尤其在嘈杂环境下，展示了该方法在实际应用中的潜力。

Oct, 2023

基于模型探索的策略优化

介绍了一种名为 Policy Optimization with Model-based Explorations (POME) 的新的强化学习策略优化方法，将模型自由和模型依赖估计方法的差距视作探索价值的度量，并将 Monte-Carlo 抽样方法与转移模型相结合，以最大化预测误差的探索价值，从而解决了模型自由与模型依赖学习之间权衡的问题。

Nov, 2018

交替离线模型训练和策略学习的统一框架

本文提出了一种迭代离线模型学习 (MBRL) 框架，其中通过交替进行动态模型训练和策略学习来最大化真实预期回报的下限，从而解决了动态模型和策略学习之间的目标不匹配问题，从而在广泛的连续控制离线强化学习数据集上实现了竞争性能。

Oct, 2022