Jun, 2019

具有模型误差的连续控制强化学习

TL;DR提供了一个框架,可将稳健性合并到持续控制强化学习算法中,通过学习最优策略并推导相应的鲁棒性熵正则化贝尔曼收缩算子来实现,并进一步引入了较不保守的软稳健熵正则化目标及相应贝尔曼算子,实验证明在九个领域的环境扰动及高维度的机器人控制方面,稳健和软稳健策略均优于无鲁棒性策略,并提供了多个探究实验来深入理解框架的其它特性。