具有真正不等约束的软演员 - 评论算法
本文介绍了一种基于最大熵强化学习框架的离线演员 - 评论家算法 Soft Actor-Critic,其中演员旨在同时最大化期望回报和熵,以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进,如约束模型等,提高了模型的稳定性和训练速度,并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能,在样本效率和渐近性能方面优于以往的在线和离线算法。
Dec, 2018
我们提出了一种新颖的 Soft Actor-Critic(SAC)算法扩展。基于最大熵原理,我们认为通过从替代性评论策略中得出的附加统计约束,可以进一步改进离散 SAC 算法。此外,我们的研究结果表明,这些约束对于潜在领域转移提供了额外的稳健性,这对于在现实世界中安全部署强化学习代理至关重要。我们提供了理论分析并展示了对 Atari 2600 游戏的分布内和分布外低数据范例的实证结果。
Oct, 2023
学习表达性随机策略而不是确定性策略已经被提出,以实现更好的稳定性、采样复杂度和鲁棒性。我们提出了 Stein Soft Actor-Critic (S^2AC),这是一种能够高效学习表达性策略的最大熵强化学习算法,通过使用参数化的 Stein 变分梯度下降(SVGD)作为基础策略,并导出了该策略的熵的闭合表达式。实证结果表明,在多目标环境中,S^2AC 相较于 SQL 和 SAC 能够提供更优的最大熵目标解,并在 MuJoCo 基准测试中胜过 SAC 和 SQL。
May, 2024
本文提出一种新方法 Meta-SAC,基于 Soft Actor-Critic (SAC) 算法,使用元梯度及元目标来自动调整熵温度,以平衡任务原始奖励与策略熵,从而解决了探索利用困境的问题,并在 Mujoco 基准测试任务中达到了令人满意的性能。
Jul, 2020
本文提出了一种受神经科学研究启发的新方法,使用抑制性网络,以允许分离和自适应状态值评估,以及不同的自动熵调整,最终我们的方法允许控制抑制来处理利用较少风险获取的行为和探索新行为之间的冲突,以克服更具挑战性的任务,并通过在 OpenAI Gym 环境中进行实验验证。
Feb, 2022
Soft Actor-Critic 算法利用最大熵强化学习实现无序策略的演员 - 评论家深度强化学习,结合灵活的离线更新和演员评论家框架,通过实验表明强化学习离线采样技术 Emphasizing Recent Experience (ERE) 能进一步提高 SAC 的效率,在混合 ERE 和 Priority Experience Replay 方法中得到了更好的结果。
Jun, 2019
本文提出了一种利用最大熵 RL 和安全性对抗指导的 SAAC 框架,能够有效解决在现实世界系统中,风险或安全性是一个约束的问题,同时它也能够满足不同的安全性标准。
Apr, 2022
本文提出一种基于最大熵强化学习框架的深度离策略演员 - 评论家算法,该算法通过离策略更新和稳定的随机演员 - 评论家公式结合,实现了在一系列连续控制基准任务上的最先进表现。
Jan, 2018
DSAC 是一种新的强化学习算法,它通过利用积累奖励的分布信息来获得更好的性能。通过将 SAC 与基本分布式目标观点无缝集成, DSAC 考虑了行动和回报中的随机性,并在几个连续控制基准测试中超越了现有技术基线。除此之外,我们还探讨了三个具体的与风险相关的度量标准:百分位数,均值 - 方差和扭曲期望,通过分布建模实现了 RL 中的风险敏感。
Apr, 2020
该研究提出了一种基于 Soft Actor Critic 算法的正态流策略分布模型,增加了模型的表达能力以提高稳定性和适应稀疏奖励环境下的探索能力。
Jun, 2019