通过正则流在无策略算法中利用探索

May, 2019

通过正则流在无策略算法中利用探索

Leveraging exploration in off-policy algorithms via normalizing flows

Bogdan Mazoure, Thang Doan, Audrey Durand, R Devon Hjelm, Joelle Pineau

TL;DR通过使用正则化流，将软 actor-critic（SAC）方法扩展到更丰富的概率分布类别，能够显着提高策略的探索性能，同时使用更小的策略表示，增加了参数效率。

Abstract

The ability to discover approximately optimal policies in domains with sparse rewards is crucial to applying reinforcement learning (RL) in many real-world scenarios. Approaches such as neural density models and continuous →

reinforcement learning exploration soft actor-critic normalizing flows policy improvement

发现论文，激发创造

使用规范化流策略改进软演员 - 评论家算法的探索能力

该研究提出了一种基于 Soft Actor Critic 算法的正态流策略分布模型，增加了模型的表达能力以提高稳定性和适应稀疏奖励环境下的探索能力。

Jun, 2019

面向可解释的强化学习与约束归一化流策略

通过限制性归一化流策略模型作为可解释且安全的构建方式，我们实现了一种安全的强化学习方法，该方法可以满足即时安全限制，并且在整个学习过程中保持约束满足，同时提供领域知识，以提高解释性、安全性和奖励工程的效果。

May, 2024

在视频游戏中实用的强化学习的离散和连续动作表示

本研究基于 Soft Actor-Critic 算法提出了一种能够处理离散、连续和参数化动作的强化学习算法 Hybrid SAC，不仅能成功地解决高速驾驶等游戏中的任务，而且在参数化动作基准任务上也能与现有最先进的算法竞争，同时探讨了在最小计算成本下使用正则化流来丰富策略表达能力的影响，发现了 SAC 与正则化流一起使用时可能出现的潜在问题，并提出了优化不同目标的方法。

Dec, 2019

通过基于能量的标准化流进行最大熵强化学习

我们引入了一种基于能量的正则化流（EBFlow）建模的新的最大熵强化学习框架，该框架集成了策略评估步骤和策略改进步骤，实现了单一的目标训练过程，并且能够计算用于策略评估目标的软值函数，同时支持多模态动作分布的建模和高效的动作采样。我们在 MuJoCo 基准套件和 Omniverse Isaac Gym 模拟的多个高维机器人任务上进行了实验评估，结果表明我们的方法相较于广泛采用的代表性基准方法具有更优越的性能。

May, 2024

训练计算密集型目标概率分布的正则化流

机器学习技术特别是所谓的标准化流在蒙特卡洛模拟中变得越来越受欢迎，因为它们可以有效地逼近目标概率分布。在格点场论中，目标分布由作用的指数给出。我们提出了一种基于 REINFORCE 算法的标准化流估计器，避免了相关的计算问题，应用于临界维度的二维 Schwinger 模型，并显示它相比重新参数化技巧估计器的墙钟时间更快，内存需求减少了 30％，数值上更稳定，并允许进行单精度计算和使用半浮点张量核心。我们深入分析了这些改进的原因，这些优点也将出现在目标概率分布计算复杂的其他领域中。

Aug, 2023

AdvNF：使用对抗学习减少条件归一化流中的模式坍缩

通过对条件 NFs 的研究，我们提出了对抗训练以解决高方差、模式崩溃和数据效率等核心问题，通过在低维度的合成数据集和 XY 自旋模型上进行实验证明。

Jan, 2024

使用条件正则流学习似然函数

本文介绍了一种新方法，叫做 CNF，用于建模条件密度函数和解决结构预测问题，同时证明了该方法在超分辨率和血管分割等任务上具有竞争力。

Nov, 2019

FlowPG: 限制动作的策略梯度与正态流

使用正规化流模型将策略输出转换为有效动作，提高行动受限强化学习中的有效性和效率，并减少约束违规。

Feb, 2024

归一化流的变体和放宽

通过结合其他生成模型类别的方面，如 VAEs 和基于分数的扩散，放宽了 NFs 的严格双射约束，从而实现了表达能力、训练速度、样本效率和似然可追踪性的平衡。

Sep, 2023

随机正常化流

提出了随机归一化流的概念，它是一种在机器学习和统计力学领域中解决概率分布采样问题的方法，具有较快的采样效率和较强的表示能力。

Feb, 2020