基于元批评学习的离线策略演员 - 评论家方法

Mar, 2020

基于元批评学习的离线策略演员 - 评论家方法

Online Meta-Critic Learning for Off-Policy Actor-Critic Methods

Wei Zhou, Yiying Li, Yongxin Yang, Huaimin Wang, Timothy M. Hospedales

TL;DR本文介绍了一种使用 Meta-critic 方法的 Actor-Critic 强化学习算法，可以显著加速学习过程并构建具有高效采样的离线学习框架，通过实验证明了 Meta-critic 方法与离线学习 Off-PAC 算法（包括 DDPG、TD3 和 SAC）相结合，在连续控制环境中取得了显著的性能提升。

Abstract

off-policy actor-critic (Off-PAC) methods have proven successful in a variety of continuous control tasks. Normally, the critic's action-v

actor-critic off-policy meta-critic reinforcement learning continuous control

发现论文，激发创造

学习如何学习：元评价网络实现高效学习

本文介绍了一种新颖的、灵活的元学习方法，通过学习一个元批判家实现知识传递，此方法适用于强化学习和监督学习中的 few-shot 和半监督条件。

Jun, 2017

基于模型的元学习批判家对策略梯度的优化

针对强化学习中仍存在的新场景快速泛化的问题，该研究提出了一个元学习算法，通过对反梯度策略学习的评论家进行元学习来优化学习任务通用的代理。结果表明，该算法可以学习到接近真实 Q 值函数的评论家，使学到的评论家能够适应于新的任务和环境，并能用于学习新策略。

Apr, 2022

离策演员 - 评论家

本研究提出了一种在线的增量式 actor-critic 算法来应对现实生活中的多种问题，在采用 off-policy 学习和最新的 gradient temporal-difference 技术的同时，能够灵活地运用 policy 设计，具有较强的学习潜力和泛化性能，并能收敛至较好的算法性能。

May, 2012

强化学习的双重稳健离线策略演员 - 评论家算法

本文研究了离策略演员 - 评论家算法的离策略评论家评估问题，并通过将双重稳健估计方法应用于演员 - 评论家算法中，成功提高了连续控制任务的性能。同时，该方法还可以应用于存在高方差和不稳定性等问题的奖励信号，从而提高了强化学习的稳健性与安全性。

Dec, 2019

高效离线强化学习：批评者至关重要

最近的研究表明，在离线强化学习中使用有监督方法（不使用时序差分学习）既有益处又有局限性。本文提出了一种取长补短的方法，首先通过有监督学习来学习行为策略和评论家，然后再通过离线强化学习进行改进。具体而言，我们通过使用常被忽视的提供的离线轨迹中的下游信息，通过有监督的蒙特卡洛值误差预训练，提高了效率。我们发现在标准基准测试中，我们能够将考虑的离线算法的训练时间减少一半以上，并且出人意料地获得更大的稳定性。我们进一步强调具有一致的策略和值函数的重要性，提出了新颖的混合算法 TD3+BC+CQL 和 EDAC+BC，对行为策略和评论家进行正则化，更可靠地改进行为策略。代码可在此 URL 找到。

Jun, 2024

Actor-Critic 方法在离线强化学习中的可证实益处

提出了一种新的离线演员 - 评论家算法，结合了悲观主义原则，在演员策略的动作价值函数封闭的情况下，具有多个优点，并能够在计算上处理封闭的 Bellman 评估运算符。

Aug, 2021

双重稳健离线演员 - 评论家算法：收敛和最优性

本文提出了一种新的基于 actor-critic 算法的离策略强化学习算法 DR-Off-PAC，通过利用已学习的干扰函数来降低估计误差并减少采样复杂度，同时采用单时间尺度结构，可以更加高效地实现一次更新。其中采用密度比方法来调整分布不匹配以稳定收敛，并且通过分析样本复杂度证明了算法渐进的收敛速率。

Feb, 2021

Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似

本研究提出了一种新的 Actor-Critic 算法变体，使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差，不论策略评估技术的选择，我们都能提供 Actor-Critic 算法的收敛速度，特别是当值函数采用线性函数近似且为连续状态和动作空间时，这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。

Oct, 2019

如何学习一个有用的评论家？基于模型的动作梯度估计策略优化

本文提出了一种基于动态学习的 MAGE 算法，通过显式学习动作价值梯度，从而进一步优化策略，相较于无模型和有模型的现有算法，该算法在连续控制任务中表现良好。

Apr, 2020

均值演员 - 评论家

提出了一种新的算法 Mean Actor-Critic（MAC）用于离散动作连续状态强化学习，该算法使用代理的所有动作值的显式表示来估计策略的梯度，证明这种方法相对于传统的 Actor-Critic 方法减少了策略梯度估计中的方差，并在两个控制域和六个 Atari 游戏上展示了与最先进的策略搜索算法的竞争力。

Sep, 2017