Apr, 2020

DSAC: 基于分布式的软演员 - 评论家算法用于风险敏感强化学习

TL;DRDSAC 是一种新的强化学习算法,它通过利用积累奖励的分布信息来获得更好的性能。通过将 SAC 与基本分布式目标观点无缝集成, DSAC 考虑了行动和回报中的随机性,并在几个连续控制基准测试中超越了现有技术基线。除此之外,我们还探讨了三个具体的与风险相关的度量标准:百分位数,均值 - 方差和扭曲期望,通过分布建模实现了 RL 中的风险敏感。