Warm-Start Actor-Critic: 从逼近误差到次优间隔
本文介绍一种可在实际机器人控制中应用的,将过往数据和在线学习相结合的策略,使用动态规划和策略更新相结合的方法可以有效提高学习效率并使学习时间缩短至实际可接受的范围。
Jun, 2020
本文提出了一种基于 softmax 价值函数的强化学习方法,它不需要 warm-start 和样本方差的降低,结合了 policy-gradient 方法和最大似然方法的优点,用于训练结构化输出预测问题的序列生成模型,经实验证明,在文本自动摘要和图像字幕生成任务上性能良好。
Sep, 2017
本研究提出了一种新的 Actor-Critic 算法变体,使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差,不论策略评估技术的选择,我们都能提供 Actor-Critic 算法的收敛速度,特别是当值函数采用线性函数近似且为连续状态和动作空间时,这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。
Oct, 2019
最近的研究表明,在离线强化学习中使用有监督方法(不使用时序差分学习)既有益处又有局限性。本文提出了一种取长补短的方法,首先通过有监督学习来学习行为策略和评论家,然后再通过离线强化学习进行改进。具体而言,我们通过使用常被忽视的提供的离线轨迹中的下游信息,通过有监督的蒙特卡洛值误差预训练,提高了效率。我们发现在标准基准测试中,我们能够将考虑的离线算法的训练时间减少一半以上,并且出人意料地获得更大的稳定性。我们进一步强调具有一致的策略和值函数的重要性,提出了新颖的混合算法 TD3+BC+CQL 和 EDAC+BC,对行为策略和评论家进行正则化,更可靠地改进行为策略。代码可在此 URL 找到。
Jun, 2024
通过知识整合和获取(CKCA)算法,我们提出了适用于深度学习应用的连续模型改进方法,旨在在不损害先前知识的前提下,更好地适应新数据,并采用两个新组件:特征规范化(FeatReg)和自适应知识蒸馏(AdaKD)。在 ImageNet 数据集上的实验中,我们的方法相比于传统的热启动方法,取得了高达 8.39% 的高准确度提升,并始终以较大的优势胜过先前应用的方法。
Jun, 2024
提出了一种新的离线演员 - 评论家算法,结合了悲观主义原则,在演员策略的动作价值函数封闭的情况下,具有多个优点,并能够在计算上处理封闭的 Bellman 评估运算符。
Aug, 2021
提出了一种名为 Uncertainty Weighted Actor-Critic(UWAC)的离线强化学习算法,采用基于 dropout 的不确定性估计方法来检测 out-of-distribution(OOD)状态 - 动作对并相应地减小其在训练目标中的贡献,实验结果表明 UWAC 算法在提高模型稳定性和稀疏演示数据集上的表现上显著优于现有离线 RL 算法。
May, 2021
本研究提出了一种在线的增量式 actor-critic 算法来应对现实生活中的多种问题,在采用 off-policy 学习和最新的 gradient temporal-difference 技术的同时,能够灵活地运用 policy 设计,具有较强的学习潜力和泛化性能,并能收敛至较好的算法性能。
May, 2012
我们设计了一个决策感知的联合目标来训练演员和评论家,以解决演员的最优目标与评论家的最小化 TD 误差目标不匹配的问题,并提出了一个通用的 Actor-critic 算法来处理任何函数逼近,在一些简单的赌博机示例中,我们证明了提出的评论家目标的好处。最后,我们在简单的 RL 问题上通过实验证明了决策感知的 Actor-critic 框架的好处。
May, 2023
本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色,并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。
Oct, 2018