May, 2025
面向无限制和几何感知的分布式强化学习的流模型
Flow Models for Unbounded and Geometry-Aware Distributional
Reinforcement Learning
TL;DR本文提出了一种新的分布式强化学习架构,利用归一化流模型返回分布,相较于传统的分类方法如C51,具有灵活的无限支持能力。研究显示该方法在参数效率上显著优于分类方法,并通过几何感知的新代理Cramér距离优化现有模型度量,使得在不重叠的返回支持下表现更佳。我们在ATARI-5子基准测试中验证了该模型,相较于基于PDF的方法表现优越,同时与基于分位数的方法竞争力强。