提出了基于样本感知的策略熵正则化方法,以增强传统策略熵正则化方法用于探索的性能;通过利用回放缓存中可获取的样本分布,最大化加权和策略行为分布和缓存中样本行为分布的熵来完成对样本高效的探索。并基于提出的样本感知熵正则化方法,开发出了一个名为多样性演员 - 评论家算法(DAC)的实用算法,并通过数值实验获得了在增强学习应用中的显著性能优势。
Jun, 2020
我们提出了一种基于离线策略的 Actor-Critic 算法,结合了随机搜索梯度 - free 优化和学习的动作价值函数,通过评估参数化动作 - 价值函数、估计局部非参数化策略和拟合参数化策略的三个步骤,在 31 个连续控制任务中进行对比与实验,并取得了良好的效果。
Dec, 2018
提出了一种名为 DACER 的在线强化学习算法,通过利用扩散模型的能力来拟合多模态分布,增强策略的表征能力,并提出了一种估算扩散策略熵的方法,在 MuJoCo 基准和多模态任务上实验证明了算法的最先进性能。
May, 2024
本文针对神经网络近似的 NAC 算法进行了有限时间分析,并指出了神经网络、正则化和优化技术在样本复杂性、迭代复杂性和过度参数化上达到证明良好性能的作用,特别地,我们证明熵正则化和平均化通过提供足够的探索避免了过于确定性和严格次优策略,正则化导致了在正则化 MDPs 中的尖锐样本复杂度和网络宽度,这在策略优化中产生了有利的偏差 - 方差权衡,而在此过程中,我们还发现了在全局优化中实现演员神经网络的均匀逼近能力的重要性,因为其具有分布转移的特征。
Jun, 2022
本文提出一种基于最大熵强化学习框架的深度离策略演员 - 评论家算法,该算法通过离策略更新和稳定的随机演员 - 评论家公式结合,实现了在一系列连续控制基准任务上的最先进表现。
Jan, 2018
提出一种基于最大因果熵的方法来学习环境约束下的最优策略,该方法利用在约束下运作的代理的演示进行学习,证明了其在表格设置中的收敛性并提供了一个可扩展到复杂环境的近似值。通过评估奖励和约束违规数,评估学习策略的有效性,并基于其在其他代理中的可转移性评估学习成本函数。此方法已经在各种任务和环境中表现优于现有技术,能够处理具有随机动态和连续状态动作空间的问题。
May, 2023
该论文提出了一种名为 ACE 的演员集成算法,用于连续控制的强化学习中,该算法使用演员集成来搜索评论者的全局最大值,并利用确定性内部选项策略扩展了选项评论家体系结构来将 ACE 在选项框架中加以说明。通过使用这些演员和一个学习到的价值预测模型进行先行搜索,导致其有一个充分的价值评估,ACE 在具有挑战性的物理机器人模拟器中展现出明显的性能提升,超过了 DDPG 及其变体。
Nov, 2018
该研究针对强化学习中现实世界应用的局限性,提出了一种 BRAC 的方法,并通过多个离线 RL 任务的实验,发现许多技术上的复杂性是不必要的。
Nov, 2019
学习表达性随机策略而不是确定性策略已经被提出,以实现更好的稳定性、采样复杂度和鲁棒性。我们提出了 Stein Soft Actor-Critic (S^2AC),这是一种能够高效学习表达性策略的最大熵强化学习算法,通过使用参数化的 Stein 变分梯度下降(SVGD)作为基础策略,并导出了该策略的熵的闭合表达式。实证结果表明,在多目标环境中,S^2AC 相较于 SQL 和 SAC 能够提供更优的最大熵目标解,并在 MuJoCo 基准测试中胜过 SAC 和 SQL。
本文介绍了一种基于最大熵强化学习框架的离线演员 - 评论家算法 Soft Actor-Critic,其中演员旨在同时最大化期望回报和熵,以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进,如约束模型等,提高了模型的稳定性和训练速度,并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能,在样本效率和渐近性能方面优于以往的在线和离线算法。