Feb, 2024

一个类似于继承表现的分布式模型

TL;DR该研究提出了一种新的分布式强化学习方法,它清晰地将过渡结构和奖励在学习过程中分开,通过最小化两层最大均值差异来学习分布式后继度量,进而实现零 - shot 风险敏感策略评估。