通过正则流在无策略算法中利用探索
该研究提出了一种基于 Soft Actor Critic 算法的正态流策略分布模型,增加了模型的表达能力以提高稳定性和适应稀疏奖励环境下的探索能力。
Jun, 2019
通过限制性归一化流策略模型作为可解释且安全的构建方式,我们实现了一种安全的强化学习方法,该方法可以满足即时安全限制,并且在整个学习过程中保持约束满足,同时提供领域知识,以提高解释性、安全性和奖励工程的效果。
May, 2024
本研究基于 Soft Actor-Critic 算法提出了一种能够处理离散、连续和参数化动作的强化学习算法 Hybrid SAC,不仅能成功地解决高速驾驶等游戏中的任务,而且在参数化动作基准任务上也能与现有最先进的算法竞争,同时探讨了在最小计算成本下使用正则化流来丰富策略表达能力的影响,发现了 SAC 与正则化流一起使用时可能出现的潜在问题,并提出了优化不同目标的方法。
Dec, 2019
我们引入了一种基于能量的正则化流(EBFlow)建模的新的最大熵强化学习框架,该框架集成了策略评估步骤和策略改进步骤,实现了单一的目标训练过程,并且能够计算用于策略评估目标的软值函数,同时支持多模态动作分布的建模和高效的动作采样。我们在 MuJoCo 基准套件和 Omniverse Isaac Gym 模拟的多个高维机器人任务上进行了实验评估,结果表明我们的方法相较于广泛采用的代表性基准方法具有更优越的性能。
May, 2024
机器学习技术特别是所谓的标准化流在蒙特卡洛模拟中变得越来越受欢迎,因为它们可以有效地逼近目标概率分布。在格点场论中,目标分布由作用的指数给出。我们提出了一种基于 REINFORCE 算法的标准化流估计器,避免了相关的计算问题,应用于临界维度的二维 Schwinger 模型,并显示它相比重新参数化技巧估计器的墙钟时间更快,内存需求减少了 30%,数值上更稳定,并允许进行单精度计算和使用半浮点张量核心。我们深入分析了这些改进的原因,这些优点也将出现在目标概率分布计算复杂的其他领域中。
Aug, 2023
通过对条件 NFs 的研究,我们提出了对抗训练以解决高方差、模式崩溃和数据效率等核心问题,通过在低维度的合成数据集和 XY 自旋模型上进行实验证明。
Jan, 2024