Feb, 2023

风险厌恶强化学习的分布式方法

TL;DR我们提出了一种分布式方法,用于在风险规避马尔可夫决策过程中学习最优策略,该方法使用嵌套 Kusuoka 类型条件风险映射构造的动态风险度量来评估策略表现,利用了对应动态规划原理中嵌入的某些结构,使用深度神经网络逼近值函数的条件分布,避免了探索阶段的维度灾难,并使用随机选择的一系列模型参数探索了该方法的性能。