FlowPG: 限制动作的策略梯度与正态流

Feb, 2024

FlowPG: 限制动作的策略梯度与正态流

FlowPG: Action-constrained Policy Gradient with Normalizing Flows

Janaka Chathuranga Brahmanage, Jiajing Ling, Akshat Kumar

TL;DR使用正规化流模型将策略输出转换为有效动作，提高行动受限强化学习中的有效性和效率，并减少约束违规。

Abstract

action-constrained reinforcement learning (ACRL) is a popular approach for solving safety-critical and resource-allocation related decision making problems. A major challenge in ACRL is to ensure agent taking a valid ac

action-constrained reinforcement learning valid action normalizing flow model feasible action space constraint violations

发现论文，激发创造

面向可解释的强化学习与约束归一化流策略

通过限制性归一化流策略模型作为可解释且安全的构建方式，我们实现了一种安全的强化学习方法，该方法可以满足即时安全限制，并且在整个学习过程中保持约束满足，同时提供领域知识，以提高解释性、安全性和奖励工程的效果。

May, 2024

强化学习中带任意约束的随机动作的生成建模

通过应用条件正则流来紧凑表示随机策略，并采用无效行为拒绝方法更新基础策略，我们解决了离散多维，无序的大型动作空间中的优化策略问题，实验表明我们的方法具有较好的可扩展性和对任意状态下行为分布的条件限制的能力。

Nov, 2023

训练计算密集型目标概率分布的正则化流

机器学习技术特别是所谓的标准化流在蒙特卡洛模拟中变得越来越受欢迎，因为它们可以有效地逼近目标概率分布。在格点场论中，目标分布由作用的指数给出。我们提出了一种基于 REINFORCE 算法的标准化流估计器，避免了相关的计算问题，应用于临界维度的二维 Schwinger 模型，并显示它相比重新参数化技巧估计器的墙钟时间更快，内存需求减少了 30％，数值上更稳定，并允许进行单精度计算和使用半浮点张量核心。我们深入分析了这些改进的原因，这些优点也将出现在目标概率分布计算复杂的其他领域中。

Aug, 2023

使用规范化流策略改进软演员 - 评论家算法的探索能力

该研究提出了一种基于 Soft Actor Critic 算法的正态流策略分布模型，增加了模型的表达能力以提高稳定性和适应稀疏奖励环境下的探索能力。

Jun, 2019

在归一化流的潜空间中训练保守智能体的离线强化学习流程

该研究的目标是通过使用 Normalizing Flows 进行深度学习，利用先前记录的数据集来训练一个采取更保守行动的策略模型，以解决离线增强学习中的外推误差和分布偏移等挑战。我们的方法在各种运动和导航任务中进行了评估，并证明了与最近提出的基于生成动作模型的算法相比在大部分数据集上的优越性。

Nov, 2022

通过正则流在无策略算法中利用探索

通过使用正则化流，将软 actor-critic（SAC）方法扩展到更丰富的概率分布类别，能够显着提高策略的探索性能，同时使用更小的策略表示，增加了参数效率。

May, 2019

生成流网络作为熵正则化强化学习

最近提出的生成流网络（GFlowNets）是一种通过一系列操作，使策略从概率与给定奖励成比例的组合离散对象中采样的方法。我们的工作将强化学习和 GFlowNets 的联系扩展到一般情况，演示了如何将学习生成流网络的任务高效重新定义为具有特定奖励和正则化结构的熵正则化强化学习问题，并通过在几个概率建模任务上应用标准的软强化学习算法展示了这种改进的实际效率。与先前报告的结果相反，我们表明熵正则化强化学习方法可以与已建立的 GFlowNet 训练方法竞争。这一观点为将强化学习原理整合到生成流网络领域开辟了直接道路。

Oct, 2023

强化学习自适应控制正则化在关键系统安全控制中的应用

强化学习是控制动态系统的强大方法，但其学习机制可能导致不可预测的行为，从而损害关键系统的安全性。本文中，我们提出了一种具有自适应控制正则化的强化学习方法（RL-ACR），通过将强化学习策略与控制正则化器结合起来，确保强化学习的安全性，并对预测的系统行为应用安全约束。我们使用可学习的 “聚焦” 权重来实现适应性，该权重通过训练来最大化策略组合的累积奖励。随着离策略学习中强化学习策略的改进，聚焦权重改进了初始亚最优策略，逐渐更多地依赖强化学习策略。我们在关键医疗控制应用中展示了 RL-ACR 的有效性，并进一步研究了其在四个经典控制环境中的性能。

Apr, 2024

通过基于能量的标准化流进行最大熵强化学习

我们引入了一种基于能量的正则化流（EBFlow）建模的新的最大熵强化学习框架，该框架集成了策略评估步骤和策略改进步骤，实现了单一的目标训练过程，并且能够计算用于策略评估目标的软值函数，同时支持多模态动作分布的建模和高效的动作采样。我们在 MuJoCo 基准套件和 Omniverse Isaac Gym 模拟的多个高维机器人任务上进行了实验评估，结果表明我们的方法相较于广泛采用的代表性基准方法具有更优越的性能。

May, 2024

基于生成流网络的精确奖励导向图模型主动学习

本文提出了基于生成式流网络的图主动学习问题的创新形式：GFlowGNN。我们提出了流节点和流特征的概念，以便有效地将图建模为基于流的生成流网络。并在实际数据集上进行了广泛的实验，证明了该方法具有良好的探索能力和可转移性，表现优于各种最先进的方法。

Apr, 2023