Warm-Start Actor-Critic: 从逼近误差到次优间隔

ICMLJun, 2023

Warm-Start Actor-Critic: 从逼近误差到次优间隔

Warm-Start Actor-Critic: From Approximation Error to Sub-optimality Gap

Hang Wang, Sen Lin, Junshan Zhang

TL;DR本文旨在建立一个基本框架，以增进我们对 “来自离线 RL 的热启动策略是否以及何时能够显著加速在线学习” 这个问题的理解，主要研究使用先前策略进行 A-C 方法的强化学习算法时，近似误差在有界条件下对算法的影响。

Abstract

warm-start reinforcement learning (RL), aided by a prior policy obtained from offline training, is emerging as a promising RL approach for

warm-start reinforcement learning offline training actor-critic online learning

发现论文，激发创造

AWAC: 利用非在线数据集加速在线强化学习

本文介绍一种可在实际机器人控制中应用的，将过往数据和在线学习相结合的策略，使用动态规划和策略更新相结合的方法可以有效提高学习效率并使学习时间缩短至实际可接受的范围。

Jun, 2020

使用 Softmax 策略梯度的冷启动强化学习

本文提出了一种基于 softmax 价值函数的强化学习方法，它不需要 warm-start 和样本方差的降低，结合了 policy-gradient 方法和最大似然方法的优点，用于训练结构化输出预测问题的序列生成模型，经实验证明，在文本自动摘要和图像字幕生成任务上性能良好。

Sep, 2017

Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似

本研究提出了一种新的 Actor-Critic 算法变体，使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差，不论策略评估技术的选择，我们都能提供 Actor-Critic 算法的收敛速度，特别是当值函数采用线性函数近似且为连续状态和动作空间时，这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。

Oct, 2019

高效离线强化学习：批评者至关重要

最近的研究表明，在离线强化学习中使用有监督方法（不使用时序差分学习）既有益处又有局限性。本文提出了一种取长补短的方法，首先通过有监督学习来学习行为策略和评论家，然后再通过离线强化学习进行改进。具体而言，我们通过使用常被忽视的提供的离线轨迹中的下游信息，通过有监督的蒙特卡洛值误差预训练，提高了效率。我们发现在标准基准测试中，我们能够将考虑的离线算法的训练时间减少一半以上，并且出人意料地获得更大的稳定性。我们进一步强调具有一致的策略和值函数的重要性，提出了新颖的混合算法 TD3+BC+CQL 和 EDAC+BC，对行为策略和评论家进行正则化，更可靠地改进行为策略。代码可在此 URL 找到。

Jun, 2024

踏出并探索：关于使用增量数据进行热启动训练

通过知识整合和获取（CKCA）算法，我们提出了适用于深度学习应用的连续模型改进方法，旨在在不损害先前知识的前提下，更好地适应新数据，并采用两个新组件：特征规范化（FeatReg）和自适应知识蒸馏（AdaKD）。在 ImageNet 数据集上的实验中，我们的方法相比于传统的热启动方法，取得了高达 8.39% 的高准确度提升，并始终以较大的优势胜过先前应用的方法。

Jun, 2024

Actor-Critic 方法在离线强化学习中的可证实益处

提出了一种新的离线演员 - 评论家算法，结合了悲观主义原则，在演员策略的动作价值函数封闭的情况下，具有多个优点，并能够在计算上处理封闭的 Bellman 评估运算符。

Aug, 2021

离线强化学习的不确定性加权演员 - 评论家算法

提出了一种名为 Uncertainty Weighted Actor-Critic（UWAC）的离线强化学习算法，采用基于 dropout 的不确定性估计方法来检测 out-of-distribution（OOD）状态 - 动作对并相应地减小其在训练目标中的贡献，实验结果表明 UWAC 算法在提高模型稳定性和稀疏演示数据集上的表现上显著优于现有离线 RL 算法。

May, 2021

离策演员 - 评论家

本研究提出了一种在线的增量式 actor-critic 算法来应对现实生活中的多种问题，在采用 off-policy 学习和最新的 gradient temporal-difference 技术的同时，能够灵活地运用 policy 设计，具有较强的学习潜力和泛化性能，并能收敛至较好的算法性能。

May, 2012

具备函数逼近和理论保证的决策感知演员 - 评论家算法

我们设计了一个决策感知的联合目标来训练演员和评论家，以解决演员的最优目标与评论家的最小化 TD 误差目标不匹配的问题，并提出了一个通用的 Actor-critic 算法来处理任何函数逼近，在一些简单的赌博机示例中，我们证明了提出的评论家目标的好处。最后，我们在简单的 RL 问题上通过实验证明了决策感知的 Actor-critic 框架的好处。

May, 2023

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018