基于 Actor-Critic 的不当强化学习

Jul, 2022

Actor-Critic based Improper Reinforcement Learning

Mohammadi Zaki, Avinash Mohan, Aditya Gopalan, Shie Mannor

TL;DR提出了两种基于强化学习的算法，分别是基于策略梯度的方法和基于 actor-critic 的方法，通过在动态环境下优化控制策略，针对一个给定的目标环境，能够在很少的试验次数内生成一个良好的控制器。多个不匹配且可能是模拟环境下学习来的基本控制器，混合并组合使之稳定控制。

Abstract

We consider an improper reinforcement learning setting where a learner is given $M$ base controllers for an unknown markov decision process, and wishes to combine them optimally to produce a potentially new contr

reinforcement learning markov decision process policy optimization actor-critic optimization algorithm

发现论文，激发创造

改进（自然）Actor-Critic 算法的样本复杂度界限

该研究论文在马可夫采样、小批量数据和通用策略类逼近等条件下，对比了演员 - 评论家算法（AC）和自然演员 - 评论家算法（NAC）的收敛速率和样本复杂度。实验表明在无限时间范围内，AC 和 NAC 可以比策略梯度（PG）和自然策略梯度（NPG）更快地达到精确的稳态点或全局最优点，而且收敛速度比之前的算法更快。

Apr, 2020

AC4MPC: 基于演员 - 评论家强化学习的非线性模型预测控制

利用演员 - 评论家强化学习技术提高模型预测控制性能，通过演员模型提供初始猜测解以及评论家模型对轨迹进行评估确定最佳控制方案。

Jun, 2024

基于函数逼近的稳健强化学习的自然动态演员 - 评论家

我们提出了两种新的不确定性集合形式，一种基于双重采样，另一种基于积分概率度量，以应对训练模拟器和测试环境之间的模型不匹配问题，并通过引入函数近似的鲁棒自然行为者 - 评论者 (RNAC) 方法，为所提出的 RNAC 算法在有限时间内收敛到最优鲁棒策略提供了保证，并在多个 MuJoCo 环境和实际 TurtleBot 导航任务中展示了所学习策略的鲁棒性能。

Jul, 2023

带有阶段演员的演员 - 评论家强化学习

强化学习中的政策梯度方法在解决连续最优控制问题方面具有很大潜力。本研究提出了一种名为 Phased Actor in Actor-Critic (PAAC) 的新方法，旨在改善政策梯度估计的质量，减少随机性变化，并提供稳定的系统动力学。PAAC 在 DeepMind Control Suite (DMC) 中的评估结果显示了其在学习成本、鲁棒性、学习速度和成功率方面显著的性能提升，通过与其他相关方法的比较，为这些政策梯度算法提供了统一视角。

Apr, 2024

来自不完美演示的强化学习

提出了一种名为规范化演员 - 评论家（NAC）的统一增强学习算法，它将从展示中学习的初始化策略网络与环境中推荐的策略网络结合起来，是一种优于现有基线的鲁棒性学习算法，可用于在几个真实驾驶游戏中的表现。

Feb, 2018

连续控制指导演员 - 评论家

本研究提出了一种新的演员 - 评论家方法，即 GAC，它首先学习本地最大化评论家的指南演员角色，然后通过监督学习来更新策略参数。实验证明，该方法是连续控制的一种有前途的增强学习方法。

May, 2017

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

具备函数逼近和理论保证的决策感知演员 - 评论家算法

我们设计了一个决策感知的联合目标来训练演员和评论家，以解决演员的最优目标与评论家的最小化 TD 误差目标不匹配的问题，并提出了一个通用的 Actor-critic 算法来处理任何函数逼近，在一些简单的赌博机示例中，我们证明了提出的评论家目标的好处。最后，我们在简单的 RL 问题上通过实验证明了决策感知的 Actor-critic 框架的好处。

May, 2023

两时间尺度（自然）Actor-Critic 算法的非渐进收敛分析

本文提出了第一种具有非渐近收敛率的二次时间尺度演员 - 评论家和自然演员 - 评论家算法的样本复杂度，通过使用新技术对动态变化 Markovian 采样的 actor 偏差误差进行边界估计并分析带有动态变化基函数和转换内核的线性评论家的收敛速率。

May, 2020

Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似

本研究提出了一种新的 Actor-Critic 算法变体，使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差，不论策略评估技术的选择，我们都能提供 Actor-Critic 算法的收敛速度，特别是当值函数采用线性函数近似且为连续状态和动作空间时，这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。

Oct, 2019