在模型自信时相信模型：掩蔽模型基于演员 - 评论家算法

Oct, 2020

在模型自信时相信模型：掩蔽模型基于演员 - 评论家算法

Trust the Model When It Is Confident: Masked Model-based Actor-Critic

Feiyang Pan, Jia He, Dandan Tu, Qing He

TL;DR本文提出一种新颖的基于模型 - actor-critic (M2AC) 算法，通过掩码机制依据模型的可信度来决定是否使用其预测，从而在连续控制基准测试中表现出较强的性能，相比最先进的方法有显著的优势。

Abstract

It is a popular belief that model-based reinforcement learning (RL) is more sample efficient than model-free RL, but in practice, it is not always true due to overweighed model errors. In complex and noisy settin

reinforcement learning model-based policy optimization uncertainty performance

发现论文，激发创造

信任自信模型 — 不确定性感知策动适应的基于模型的演员 - 评论家算法

基于模型的增强学习方法中，我们通过逐步增加模型预测长度来考虑模型的不确定性，以获得更准确的本地预测结果，并提出了一种易于调整的预测机制，相比于现有的深度增强学习方法在 MuJoCo 基准测试中获得了显著的数据效率和性能提升。

May, 2024

深度强化学习下的模型预测行动者 - 评论家算法：加速机器人技能获取

介绍了一种基于模型预测控制的混合模型学习和无模型学习方法，名为 MoPAC，通过探索 / 利用以减轻模型偏差，可以实现真实机器人的训练。该方法使用优化轨迹指导策略学习，并且在需要时进行探索。通过实验，MoPAC 方法优于当前最先进的方法，适用于真实机器人的训练，同时为物体夹取、操作和重新夹取等复杂任务提供了一种优化技能学习的解决方案。

Mar, 2021

基于保守模型的演员 - 评论家算法的高样本效率强化学习

本研究提出了一种保守的基于模型的演员 - 评论家方法（CMBAC），通过从多个不准确的模型中学习 Q 值函数，利用底部 k 个估计的平均值来优化策略，从而实现高样本效率，尤其是在噪声环境下表现更加优越。

Dec, 2021

何时信任你的模型：基于模型的策略优化

本文研究模型在强化学习算法中的使用，旨在解决生成数据的容易程度与模型生成数据的偏差之间的平衡问题。作者提出了一种基于模型的强化学习算法，并探讨了模型在策略优化中的作用。实践中，作者发现模型生成的在线策略数据总是不如真实的离线数据。然而，通过将模型泛化能力的经验估计纳入到分析中，可以证明模型的使用是合理的。最后，作者展示了一种简单的方法，使用从真实数据中分支的短模型生成滚动数据，具有比其他基于模型的方法更好的样本效率，可以匹配最佳无模型算法的渐近性能，并能处理其它基于模型的算法不能处理的问题。

Jun, 2019

基于函数逼近的稳健强化学习的自然动态演员 - 评论家

我们提出了两种新的不确定性集合形式，一种基于双重采样，另一种基于积分概率度量，以应对训练模拟器和测试环境之间的模型不匹配问题，并通过引入函数近似的鲁棒自然行为者 - 评论者 (RNAC) 方法，为所提出的 RNAC 算法在有限时间内收敛到最优鲁棒策略提供了保证，并在多个 MuJoCo 环境和实际 TurtleBot 导航任务中展示了所学习策略的鲁棒性能。

Jul, 2023

AC4MPC: 基于演员 - 评论家强化学习的非线性模型预测控制

利用演员 - 评论家强化学习技术提高模型预测控制性能，通过演员模型提供初始猜测解以及评论家模型对轨迹进行评估确定最佳控制方案。

Jun, 2024

实时强化学习

介绍了一种新的实时实时决策过程框架，并分析了现有算法在此新框架下的缺陷。然后使用这些洞察力创建了一个新算法实时演员评论家（RTAC），在实时和非实时设置中均优于现有最先进的连续控制算法 Soft Actor-Critic。

Nov, 2019

在信任状态之前双重检查：基于模型的想象中的置信度感知双向离线模型

本文提出一种置信度感知的双向离线模型想象算法，使用训练好的双向动力学模型和推进策略来扩充离线数据集，以增强在线学习的推广能力。实验结果表明，该算法显著提高了现有模型无关的线下 RL 算法的性能，并与基线方法相比获得了竞争性或更好的得分。

Jun, 2022

软 - 鲁棒的演员 - 评论家策略梯度算法

本文提出了一种基于 Soft-Robust Actor-Critic 算法的 Robust Reinforcement Learning 方法，能够学习针对不确定性模型的最优策略且避免过于保守，实验证明其收敛性和高效性。

Mar, 2018

具备函数逼近和理论保证的决策感知演员 - 评论家算法

我们设计了一个决策感知的联合目标来训练演员和评论家，以解决演员的最优目标与评论家的最小化 TD 误差目标不匹配的问题，并提出了一个通用的 Actor-critic 算法来处理任何函数逼近，在一些简单的赌博机示例中，我们证明了提出的评论家目标的好处。最后，我们在简单的 RL 问题上通过实验证明了决策感知的 Actor-critic 框架的好处。

May, 2023