Dec, 2020

不确定性感知策略优化:一种稳健、自适应的信任区域方法

TL;DR在强化学习中,针对数据量有限的情况,提出了一种基于不确定性管理技术的深度策略优化方法,可以生成稳健的策略更新,适应学习过程中的不确定性水平。