SDSRA:一种用于有效策略学习的基于技能驱动和技能重新组合的算法
DSAC 是一种新的强化学习算法,它通过利用积累奖励的分布信息来获得更好的性能。通过将 SAC 与基本分布式目标观点无缝集成, DSAC 考虑了行动和回报中的随机性,并在几个连续控制基准测试中超越了现有技术基线。除此之外,我们还探讨了三个具体的与风险相关的度量标准:百分位数,均值 - 方差和扭曲期望,通过分布建模实现了 RL 中的风险敏感。
Apr, 2020
本文介绍了一种基于最大熵强化学习框架的离线演员 - 评论家算法 Soft Actor-Critic,其中演员旨在同时最大化期望回报和熵,以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进,如约束模型等,提高了模型的稳定性和训练速度,并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能,在样本效率和渐近性能方面优于以往的在线和离线算法。
Dec, 2018
我们提出了一种新颖的 Soft Actor-Critic(SAC)算法扩展。基于最大熵原理,我们认为通过从替代性评论策略中得出的附加统计约束,可以进一步改进离散 SAC 算法。此外,我们的研究结果表明,这些约束对于潜在领域转移提供了额外的稳健性,这对于在现实世界中安全部署强化学习代理至关重要。我们提供了理论分析并展示了对 Atari 2600 游戏的分布内和分布外低数据范例的实证结果。
Oct, 2023
通过自适应技能分布来优化探索效率,并且提高对环境结构模式的利用,这能够显著改善目标导向强化学习中的探索效率,并在具有类似局部结构的未知任务中展现强大的泛化能力。
Apr, 2024
利用 Skill-Critic 算法,结合高层技能选择来优化低级和高级策略,通过离线演示数据学习到的潜在空间来指导联合策略优化,提高在多个稀疏环境中的决策性能。
Jun, 2023
通过灵活运用 Synergistic Action Representation (SAR) 作为一种合适的控制机制,可以有效地学习高维度连续控制任务,提高样本效率,并在广泛的任务领域中实现零样本泛化。
Jul, 2023
这篇论文介绍了对标准的 DSAC 算法进行三个重要修正,包括评论家梯度调整、双值分布学习和基于方差的目标回报剪辑,修改后的 RL 算法被称为 DSAC-T 或 DSAC-v2,在各种基准任务中的表现进行了系统评估,结果显示,在所有测试环境中,不需要任何任务特定的超参数调整,DSAC-T 超越了许多主流的无模型 RL 算法,包括 SAC、TD3、DDPG、TRPO 和 PPO,并且与标准版本相比,DSAC-T 确保了高度稳定的学习过程,并在不同的奖励尺度下具有相似的性能。
Oct, 2023
我们提出了一种在多个领域中比现有方法更出色的技能转移方法,通过学习现有的时间扩展技能序列来进行探索,并直接从原始经验中学习最终策略,实现快速适应和高效数据收集。
Nov, 2022
Soft Actor-Critic 算法利用最大熵强化学习实现无序策略的演员 - 评论家深度强化学习,结合灵活的离线更新和演员评论家框架,通过实验表明强化学习离线采样技术 Emphasizing Recent Experience (ERE) 能进一步提高 SAC 的效率,在混合 ERE 和 Priority Experience Replay 方法中得到了更好的结果。
Jun, 2019
本文提出了一种新颖的基于贝叶斯链的层次策略分解方法,将策略分解为多个简单的子策略,并将它们的关系组织为贝叶斯策略网络,将其集成到最先进的深度强化学习方法中,即软性演员批评家模型(SAC),并构建相应的贝叶斯软性演员批评家模型(BSAC),这种方法通过将多个子策略组织为一个联合策略,实现了良好的性能并显著提高了训练效率。
Aug, 2022