基于函数逼近的稳健强化学习的自然动态演员-评论家

Jul, 2023

基于函数逼近的稳健强化学习的自然动态演员-评论家

Natural Actor-Critic for Robust Reinforcement Learning with Function Approximation

Ruida Zhou, Tao Liu, Min Cheng, Dileep Kalathil, P. R. Kumar...

TL;DR我们提出了两种新的不确定性集合形式，一种基于双重采样，另一种基于积分概率度量，以应对训练模拟器和测试环境之间的模型不匹配问题，并通过引入函数近似的鲁棒自然行为者-评论者(RNAC)方法，为所提出的RNAC算法在有限时间内收敛到最优鲁棒策略提供了保证，并在多个MuJoCo环境和实际TurtleBot导航任务中展示了所学习策略的鲁棒性能。

Abstract

We study robust reinforcement learning (RL) with the goal of determining a well-performing policy that is robust against model mismatch between the training simulator and the testing environment. Previous policy-based robust RL algorithms mainly focus on the tabular setting under

发现论文，激发创造

模型不匹配下的强化学习

论文研究了缺失真实环境信息的强化学习问题，将鲁棒MDP框架扩展到无模型参数条件下的RL设置中，提出了三个具有鲁棒性的Q-learning、SARSA和TD-learning算法，并通过函数逼近扩展到大规模MDPs，证明了其收敛性，并给出了保证局部最小的随机梯度下降算法。

Jun, 2017

软-鲁棒的演员-评论家策略梯度算法

本文提出了一种基于 Soft-Robust Actor-Critic 算法的 Robust Reinforcement Learning 方法，能够学习针对不确定性模型的最优策略且避免过于保守，实验证明其收敛性和高效性。

Mar, 2018

动作鲁棒性强化学习及其在连续控制中的应用

研究了如何在存在不确定性的情况下通过改进强化学习算法来实现机器人动作鲁棒性，以此应对干扰和突发情况，并探讨其潜在的正则化效果。

Jan, 2019

带模型不确定性的在线强化学习

本文提出了一种基于样本的方法来估计未知的不确定性集并设计了一种鲁棒Q学习算法和鲁棒TDC算法，可以在线上和增量的情况下实现，在不需要收敛性保证的情况下证明了 Q 学习算法收敛到最优的鲁棒Q函数，并证明了 TDC 算法渐近收敛到一些稳定点，在数值实验中进一步验证了算法的鲁棒性。

Sep, 2021

强化学习的鲁棒性策略梯度方法

开发了具有全局最优性保证和复杂度分析的政策梯度方法，用于处理模型不匹配下的鲁棒强化学习，提出了鲁棒策略梯度和平滑的鲁棒策略梯度方法，并将方法推广到广泛的非模型设置下，提供了仿真结果证明了方法的鲁棒性。

May, 2022

实用鲁棒强化学习：邻域不确定性集和双代理算法

介绍了一种新的不确定性集合并基于此提出了一种名为ARQ-Learning的鲁棒强化学习方法，同时还提出一种能高效解决ARQ-Learning在大规模或连续状态空间下的问题的技术，最终将其应用于各种存在模型不确定性的强化学习应用中。

May, 2023

具备函数逼近和理论保证的决策感知演员-评论家算法

我们设计了一个决策感知的联合目标来训练演员和评论家，以解决演员的最优目标与评论家的最小化TD误差目标不匹配的问题，并提出了一个通用的Actor-critic算法来处理任何函数逼近，在一些简单的赌博机示例中，我们证明了提出的评论家目标的好处。最后，我们在简单的RL问题上通过实验证明了决策感知的Actor-critic框架的好处。

May, 2023

分布鲁棒离线强化学习的极小极大最优和计算高效算法

分布式鲁棒离线强化学习是针对环境扰动进行鲁棒策略训练的一种方法，当面对大规模状态-动作空间时需要进行函数逼近。本研究提出了一种最小极大值最优算法，通过对线性参数化的模型进行实现，探索了实例依赖次优性分析在鲁棒离线强化学习中的应用，并揭示了鲁棒离线强化学习中的函数逼近与标准离线强化学习所面临的困难之间的本质区别。

Mar, 2024

时钟受限的鲁棒马尔科夫决策过程

通过引入新的时间约束鲁棒马尔科夫决策过程（TC-RMDP）表达方式，考虑到多因素、相关性和时变干扰，该研究重新审视了鲁棒强化学习中的传统假设，为发展更实际、更真实的强化学习应用开辟了新的路径，同时在时间受限环境下，在保持鲁棒性的同时，取得了性能和鲁棒性之间的高效平衡。

Jun, 2024

RRLS：强化学习套件

我们引入了RRLS（Robust Reinforcement Learning Suite），这是一款基于Mujoco环境的基准套件，为训练和评估提供了六个连续控制任务，旨在标准化强化学习任务，促进可重现和可比较的实验，并为最新的最先进贡献提供使用实例。

Jun, 2024