价值梯度加权的基于模型的强化学习

Apr, 2022

价值梯度加权的基于模型的强化学习

Value Gradient weighted Model-Based Reinforcement Learning

Claas Voelcker, Victor Liao, Animesh Garg, Amir-massoud Farahmand

TL;DR本文提出了一种基于价值梯度加权的模型学习方法（VaGraM），通过改进价值感知模型的学习，提高在小模型容量和存在干扰状态维度等具有挑战性的环境下的 Model-based reinforcement learning (MBRL) 的性能。与常用的基于最大似然估计（MLE）的方法相比，我们的方法表现更优

Abstract

model-based reinforcement learning (MBRL) is a sample efficient technique to obtain control policies, yet unavoidable modeling errors often lead performance deterioration. The model in MBRL is often solely fitted to reconstruct dynamics, state observations in particular, while the impa

model-based reinforcement learning value-gradient weighted model learning mle value-aware model learning policy

发现论文，激发创造

基于价值偏差的最大似然估计在折扣线性 MDPs 中的模型驱动强化学习

我们提出使用基于反向传递最大似然估计的价值偏置方法来解决具有无限时间视角的线性马尔可夫决策过程，该方法在理论上证明具有几乎最优的遗憾，并且在计算上更高效，我们还发现线性马尔可夫决策过程和在线学习之间存在有趣的联系。

Oct, 2023

面向策略梯度方法的策略感知模型学习

本文研究了模型基强化学习中模型的学习，提出了基于 Policy-Aware Model Learning (PAML) 的带权损失函数来学习模型，结果证明该方法在某些基准问题上表现良好。

Feb, 2020

基于模型的前瞻性强化学习

本论文结合模型推理控制与模型无关的深度强化学习方法，提出一种更加高效的学习框架，并在标准的连续控制基准任务中取得了与模型无关方法相当的性能表现。

Aug, 2019

基于模型的强化学习的博弈论框架

本文提出了一种新的框架，将基于模型的强化学习（MBRL）视为博弈，通过构建领导者与跟随者之间的 Stackelberg 博弈来简化算法设计，并设计了两种自然算法家族，旨在促进样本效率。

Apr, 2020

基于模型的随机价值梯度在连续强化学习中的应用

本文探讨了基于模型的强化学习与基于模型的无模型强化学习的综合应用方法，发现在高维控制任务中，基于模型的策略评估方法比传统方法更有效。

Aug, 2020

Value Memory Graph: 离线强化学习的基于图结构的世界模型

该研究旨在解决在复杂环境中直接应用强化学习方法以学习策略时遇到的困难，提出了一种基于图的马尔可夫决策过程的简单离线世界模型，称为 Value Memory Graph，可有效地解决回报稀疏和长时间跨度等问题。

Jun, 2022

基于模型的强化学习的自我纠正模型

本文从理论角度分析了 Hallucinated Replay 方法在模型有误的情况下的强化学习效果，提出了一种新的误差界，利用这种方法使确定性 MDPs 的强化学习算法更具有鲁棒性和性能保证。

Dec, 2016

基于模型的强化学习模型 —— 使用多步计划价值评估

本文提出了一种新的基于模型的强化学习算法 MPPVE（Model-based Planning Policy Learning with Multi-step Plan Value Estimation），通过引入多步计划来替换多步行动，采用多步计划价值估计来更新政策，从而更好地利用学习到的模型，实现比现有基于模型的强化学习方法更好的样本效率。

Sep, 2022

模型基强化学习中解决客观差异的统一视角

模型驱动强化学习（MBRL）通过学习环境的显式模型，使智能体更具有样本效率、自适应性和可解释性。本研究提供了对 MBRL 中解决目标不匹配问题的多个解决方案类别的深入调查，并提出了一个分类以促进未来的研究。

Oct, 2023

Ready Policy One: 通过积极学习构建世界

本文介绍了 Ready Policy One (RP1)，将基于模型的强化学习视为一个主动学习问题，利用混合目标函数，在优化期间关键性的适应，以便在学习的不同阶段权衡奖励与探索，同时介绍了一个原则性的机制以停止样本收集。在多个连续控制任务中对方法进行了严格评估，并证明了与现有方法相比的显著增益。

Feb, 2020