一个自调节的演员 - 评论算法
本文提出一种新方法 Meta-SAC,基于 Soft Actor-Critic (SAC) 算法,使用元梯度及元目标来自动调整熵温度,以平衡任务原始奖励与策略熵,从而解决了探索利用困境的问题,并在 Mujoco 基准测试任务中达到了令人满意的性能。
Jul, 2020
本文介绍了一种基于最大熵强化学习框架的离线演员 - 评论家算法 Soft Actor-Critic,其中演员旨在同时最大化期望回报和熵,以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进,如约束模型等,提高了模型的稳定性和训练速度,并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能,在样本效率和渐近性能方面优于以往的在线和离线算法。
Dec, 2018
本文介绍了一种基于深度强化学习的算法,通过学习潜在表示来加速图像的强化学习,提出了随机潜在 Actor-Critic(SLAC)算法,并表明其在图像控制任务上的表现优于其他无模型或基于模型的替代方案。
Jul, 2019
提出了一种称为适应性校准评论家 (ACC) 的方法,并将其应用于 Truncated Quantile Critics 中,实现了自适应调整参数,从而消除了低方差时间差分目标的偏差,并在 OpenAI gym 连续控制基准测试中取得了新的最佳成绩。
Nov, 2021
这篇论文介绍了对标准的 DSAC 算法进行三个重要修正,包括评论家梯度调整、双值分布学习和基于方差的目标回报剪辑,修改后的 RL 算法被称为 DSAC-T 或 DSAC-v2,在各种基准任务中的表现进行了系统评估,结果显示,在所有测试环境中,不需要任何任务特定的超参数调整,DSAC-T 超越了许多主流的无模型 RL 算法,包括 SAC、TD3、DDPG、TRPO 和 PPO,并且与标准版本相比,DSAC-T 确保了高度稳定的学习过程,并在不同的奖励尺度下具有相似的性能。
Oct, 2023
本文提出一种基于最大熵强化学习框架的深度离策略演员 - 评论家算法,该算法通过离策略更新和稳定的随机演员 - 评论家公式结合,实现了在一系列连续控制基准任务上的最先进表现。
Jan, 2018
本文介绍了一种使用 Meta-critic 方法的 Actor-Critic 强化学习算法,可以显著加速学习过程并构建具有高效采样的离线学习框架,通过实验证明了 Meta-critic 方法与离线学习 Off-PAC 算法(包括 DDPG、TD3 和 SAC)相结合,在连续控制环境中取得了显著的性能提升。
Mar, 2020
针对强化学习中仍存在的新场景快速泛化的问题,该研究提出了一个元学习算法,通过对反梯度策略学习的评论家进行元学习来优化学习任务通用的代理。结果表明,该算法可以学习到接近真实 Q 值函数的评论家,使学到的评论家能够适应于新的任务和环境,并能用于学习新策略。
Apr, 2022
该研究提出了一种名为 OMPAC 的在线元学习算法用于调整强化学习算法中关键的元参数以提高效率,实验证明,该方法可以在 Atari 2600 视频游戏和 Tetris 的问题上实现优越的性能。
Feb, 2017
本文介绍的一种基于元梯度下降的算法可以通过与环境的交互经验发现自己的目标,并灵活地以深度神经网络为参数。随着时间的推移,该算法可以学习如何学习,最终在 Atari Learning Environment 上表现出比强化学习基准测试更高的得分。
Jul, 2020