Nov, 2023

强化学习中带任意约束的随机动作的生成建模

TL;DR通过应用条件正则流来紧凑表示随机策略,并采用无效行为拒绝方法更新基础策略,我们解决了离散多维,无序的大型动作空间中的优化策略问题,实验表明我们的方法具有较好的可扩展性和对任意状态下行为分布的条件限制的能力。