DoMo-AC: 双重多步骤离线 Actor-Critic 算法

May, 2023

DoMo-AC: 双重多步骤离线 Actor-Critic 算法

DoMo-AC: Doubly Multi-step Off-policy Actor-Critic Algorithm

Yunhao Tang, Tadashi Kozuno, Mark Rowland, Anna Harutyunyan, Rémi Munos...

TL;DR介绍了一种新方法 doubly multi-step off-policy VI (DoMo-VI) 和其实例 doubly multi-step off-policy actor-critic (DoMo-AC)，通过结合 policy improvement 和 policy evaluation 技术使模型训练更快、更准确，并在 Atari-57 游戏基准测试中得到比基线算法更好的结果。

Abstract

multi-step learning applies lookahead over multiple time steps and has proved valuable in policy evaluation settings. However, in the optimal control case, the impact of →

multi-step learning optimal control off-policy learning oracle algorithm policy gradient

发现论文，激发创造

双重稳健离线演员 - 评论家算法：收敛和最优性

本文提出了一种新的基于 actor-critic 算法的离策略强化学习算法 DR-Off-PAC，通过利用已学习的干扰函数来降低估计误差并减少采样复杂度，同时采用单时间尺度结构，可以更加高效地实现一次更新。其中采用密度比方法来调整分布不匹配以稳定收敛，并且通过分析样本复杂度证明了算法渐进的收敛速率。

Feb, 2021

价值改进的演员评论算法

通过在策略和价值中分别应用改进算子，本研究提出了一种对演员 - 评论家（AC）框架的通用扩展，命名为 Value-Improved AC (VI-AC)，并设计了 VI-TD3 和 VI-DDPG 两个实际算法，在 Mujoco 基准测试中发现在所有环境中它们都能改进现有基准算法的性能或与其持平。

Jun, 2024

有限时间收敛和演员 - 评论家多目标强化学习的样本复杂度

该研究论文介绍了一种创新的演员 - 评论家算法 MOAC，用于解决多目标强化学习问题，并提供了有限时间帕累托平稳收敛和样本复杂度的分析，通过在冲突的奖励信号之间进行权衡来找到策略，解决了应用中普遍存在的多个潜在冲突目标的问题，并通过实验证实了该方法的有效性。

May, 2024

深度强化学习下的模型预测行动者 - 评论家算法：加速机器人技能获取

介绍了一种基于模型预测控制的混合模型学习和无模型学习方法，名为 MoPAC，通过探索 / 利用以减轻模型偏差，可以实现真实机器人的训练。该方法使用优化轨迹指导策略学习，并且在需要时进行探索。通过实验，MoPAC 方法优于当前最先进的方法，适用于真实机器人的训练，同时为物体夹取、操作和重新夹取等复杂任务提供了一种优化技能学习的解决方案。

Mar, 2021

DAC: 双重演员 - 评论家体系结构用于学习选项

研究了一种基于 MDPs 的新型选项框架，应用 Actor-Critic 算法学习内部选项策略，终止条件和选项的主策略，并在具有挑战性的机器人仿真任务中展示了 DAC 对于传输学习的优越性能。

Apr, 2019

解耦的 Actor-Critic

我们提出了一种名为 Decoupled Actor-Critic（DAC）的离策略算法，通过梯度反向传播学习两个不同的演员：一个保守的演员用于时序差分学习，一个乐观的演员用于探索。在 DeepMind Control 任务中，DAC 在低和高回放比例的情况下，并结合了多个设计选择，取得了最新的表现和样本效率。

Oct, 2023

注重最坏情况鲁棒性的 Max-Min 离线策略演员 - 评论家算法

探讨了强化学习中的模拟环境和真实环境之间存在的不匹配问题，设计了一种基于最小 - 最大优化的离线演员 - 评论家算法（M2TD3）来优化不确定性参数集上的最坏情况表现，实现了该方法在 MuJoco 环境中的效果优于多个基准方法。

Nov, 2022

零阶演员 - 评论家

提出了一种新的零阶演员评论家算法（ZOAC），将进化型的零阶优化方法和基于政策梯度的一阶方法统一到一个政策演员结构中，解决了两种算法的缺陷，获得了更高的样本效率和更强的鲁棒性。

Jan, 2022

强化学习的双重稳健离线策略演员 - 评论家算法

本文研究了离策略演员 - 评论家算法的离策略评论家评估问题，并通过将双重稳健估计方法应用于演员 - 评论家算法中，成功提高了连续控制任务的性能。同时，该方法还可以应用于存在高方差和不稳定性等问题的奖励信号，从而提高了强化学习的稳健性与安全性。

Dec, 2019

使用双重评论家加强演员

本文提出了一种新的 actor-critic 算法，叫做 Dual-AC，并通过多步引导，路径正则化和随机对偶上升算法有效地解决了极小极大优化问题，取得了几项基准测试的最佳表现。

Dec, 2017