Feb, 2024

FlowPG: 限制动作的策略梯度与正态流

TL;DR使用正规化流模型将策略输出转换为有效动作,提高行动受限强化学习中的有效性和效率,并减少约束违规。