注重最坏情况鲁棒性的Max-Min离线策略演员-评论家算法

Nov, 2022

注重最坏情况鲁棒性的Max-Min离线策略演员-评论家算法

Max-Min Off-Policy Actor-Critic Method Focusing on Worst-Case Robustness to Model Misspecification

Takumi Tanabe, Rei Sato, Kazuto Fukuchi, Jun Sakuma, Youhei Akimoto

TL;DR探讨了强化学习中的模拟环境和真实环境之间存在的不匹配问题，设计了一种基于最小-最大优化的离线演员-评论家算法（M2TD3）来优化不确定性参数集上的最坏情况表现，实现了该方法在MuJoco环境中的效果优于多个基准方法。

Abstract

In the field of reinforcement learning, because of the high cost and risk of policy training in the real world, policies are trained in a simulation environment and transferred to the corresponding real-world env

发现论文，激发创造

软最大熵深度强化学习中的Stochastic Actor-Critic算法

本文提出一种基于最大熵强化学习框架的深度离策略演员-评论家算法，该算法通过离策略更新和稳定的随机演员-评论家公式结合，实现了在一系列连续控制基准任务上的最先进表现。

Jan, 2018

最坏情况策略梯度

该研究提出了一种基于Actor-Critic框架和条件风险价值的深度强化学习方法，应用于驾驶模拟中，实现了在保证安全的前提下尽量提高任务完成效率，并且相比于其他深度强化学习方法，该方法更具有泛化性。

Nov, 2019

强化学习的双重稳健离线策略演员-评论家算法

本文研究了离策略演员 - 评论家算法的离策略评论家评估问题，并通过将双重稳健估计方法应用于演员 - 评论家算法中，成功提高了连续控制任务的性能。同时，该方法还可以应用于存在高方差和不稳定性等问题的奖励信号，从而提高了强化学习的稳健性与安全性。

Dec, 2019

COMBO: 保守的离线基于模型的策略优化

该研究提出一种新的基于模型的线下强化学习算法（COMBO），该算法不需要显式的不确定性估计，通过对已学习模型下的滚动状态动作元组进行价值函数正则化，从而得到状态动作元组价值函数的保守估计。该方法可以优化真实策略价值的下限，且实验表明与先前的线下模型自由和基于模型的方法相比，COMBO在广泛研究的线下RL基准测试中表现持续改进。

Feb, 2021

双重稳健离线演员-评论家算法：收敛和最优性

本文提出了一种新的基于 actor-critic 算法的离策略强化学习算法 DR-Off-PAC，通过利用已学习的干扰函数来降低估计误差并减少采样复杂度，同时采用单时间尺度结构，可以更加高效地实现一次更新。其中采用密度比方法来调整分布不匹配以稳定收敛，并且通过分析样本复杂度证明了算法渐进的收敛速率。

Feb, 2021

离线强化学习的不确定性加权演员-评论家算法

提出了一种名为Uncertainty Weighted Actor-Critic（UWAC）的离线强化学习算法，采用基于dropout的不确定性估计方法来检测out-of-distribution（OOD）状态-动作对并相应地减小其在训练目标中的贡献，实验结果表明UWAC算法在提高模型稳定性和稀疏演示数据集上的表现上显著优于现有离线RL算法。

May, 2021

强化学习的鲁棒性策略梯度方法

开发了具有全局最优性保证和复杂度分析的政策梯度方法，用于处理模型不匹配下的鲁棒强化学习，提出了鲁棒策略梯度和平滑的鲁棒策略梯度方法，并将方法推广到广泛的非模型设置下，提供了仿真结果证明了方法的鲁棒性。

May, 2022

无需重要性采样的Actor-Critic方法的离线校正

本文研究了基于离线数据的深度强化学习算法，提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力，并且证明了该方法可以实现安全的离线学习。实验证明，该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。

Aug, 2022

基于模型的离线强化学习中的本地错误建模

我们提出了一个基于模型的离线强化学习策略性能下限，明确捕捉动力学模型误差和分布不匹配，并提出一种用于最优离线策略选择的实证算法。我们通过建立对价值函数的悲观近似来证明了一种新的安全策略改进定理。我们的关键见解是同时考虑动力学模型和策略的选择：只要动力学模型能够准确地表示给定策略访问的状态-操作对的动态特性，就可能近似该特定策略的值。我们在LQR设置下分析了我们的下限，并在一组D4RL任务的策略选择上展示了有竞争力的性能下限。

Jan, 2023

提高基于模型的离线强化学习的确定性不确定性传播

利用动量匹配离线模型优化的方法(MOMBO)，通过确定性传播不确定性，解决了模型基于离线强化学习中由于过度惩罚导致次优策略问题的挑战，并通过在各种环境中的实证研究证明MOMBO是更稳定和更高效的方法。

Jun, 2024