面向策略梯度方法的策略感知模型学习

Feb, 2020

面向策略梯度方法的策略感知模型学习

Policy-Aware Model Learning for Policy Gradient Methods

Romina Abachi, Mohammad Ghavamzadeh, Amir-massoud Farahmand

TL;DR本文研究了模型基强化学习中模型的学习，提出了基于 Policy-Aware Model Learning (PAML) 的带权损失函数来学习模型，结果证明该方法在某些基准问题上表现良好。

Abstract

This paper considers the problem of learning a model in model-based reinforcement learning (MBRL). We examine how the planning module of an MBRL algorithm uses the model, and propose that the model learning module

model-based reinforcement learning planning module model learning module policy gradient policy-aware model learning

发现论文，激发创造

价值梯度加权的基于模型的强化学习

本文提出了一种基于价值梯度加权的模型学习方法（VaGraM），通过改进价值感知模型的学习，提高在小模型容量和存在干扰状态维度等具有挑战性的环境下的 Model-based reinforcement learning (MBRL) 的性能。与常用的基于最大似然估计（MLE）的方法相比，我们的方法表现更优

Apr, 2022

Ready Policy One: 通过积极学习构建世界

本文介绍了 Ready Policy One (RP1)，将基于模型的强化学习视为一个主动学习问题，利用混合目标函数，在优化期间关键性的适应，以便在学习的不同阶段权衡奖励与探索，同时介绍了一个原则性的机制以停止样本收集。在多个连续控制任务中对方法进行了严格评估，并证明了与现有方法相比的显著增益。

Feb, 2020

基于模型的强化学习的博弈论框架

本文提出了一种新的框架，将基于模型的强化学习（MBRL）视为博弈，通过构建领导者与跟随者之间的 Stackelberg 博弈来简化算法设计，并设计了两种自然算法家族，旨在促进样本效率。

Apr, 2020

基于模型的强化学习的自我纠正模型

本文从理论角度分析了 Hallucinated Replay 方法在模型有误的情况下的强化学习效果，提出了一种新的误差界，利用这种方法使确定性 MDPs 的强化学习算法更具有鲁棒性和性能保证。

Dec, 2016

交替离线模型训练和策略学习的统一框架

本文提出了一种迭代离线模型学习 (MBRL) 框架，其中通过交替进行动态模型训练和策略学习来最大化真实预期回报的下限，从而解决了动态模型和策略学习之间的目标不匹配问题，从而在广泛的连续控制离线强化学习数据集上实现了竞争性能。

Oct, 2022

基于模型的前瞻性强化学习

本论文结合模型推理控制与模型无关的深度强化学习方法，提出一种更加高效的学习框架，并在标准的连续控制基准任务中取得了与模型无关方法相当的性能表现。

Aug, 2019

论规划在基于模型的深度强化学习中的作用

本文研究了 MuZero，一种先进的模型基强化学习算法在控制任务、Atari 游戏和 9x9 围棋等多种环境下的表现，阐述了规划在强化学习中的作用，以及如何在规划过程中优化算法，提高表现，并指出单独采用规划无法实现强的泛化能力。

Nov, 2020

元学习线性二次调节器：一种基于策略梯度的模型无关 LQR 的 MAML 方法

在多任务、异构和无模型的情况下，我们研究了学习线性二次调节器（LQR）的问题。我们表征了基于策略梯度的无模型元学习方法（MAML）（Finn et al.，2017）在不同任务异质性设置下的稳定性和个性化保证。我们展示了 MAML-LQR 方法在模型为基础和无模型设置下产生了一个接近每个任务特定最优控制器的稳定控制器，直到任务异质性偏差为止。此外，在模型为基础的设置中，我们展示了这个控制器以线性收敛速度实现，这在现有的 MAML-LQR 工作中改进了次线性速度。与现有的 MAML-LQR 结果相比，我们的理论保证证明了学到的控制器可以高效地适应未见的 LQR 任务。

Jan, 2024

抽象学习模型规划与可迁移子任务学习

该研究利用一种新的形式结构，提出了一种基于模型的层次强化学习算法，名为 PALM，可学习独立、模块化的转移和奖励模型用于概率规划，并演示了其将规划和执行进行集成，以快速有效地学习抽象、分层模型以及转移至新的相关任务的增强潜力。

Dec, 2019

基于模型的规划与策略网络的探索

该研究提出了一种新的基于模型的策略规划（POPLIN）算法，将策略网络与在线规划相结合，通过神经网络在每个时间步骤中优化动作规划，并通过 MuJoCo 基准环境验证其取得了业界领先的性能表现。

Jun, 2019