Jun, 2020

带有 Wasserstein 约束的强化学习

TL;DR本文提出了一种使用 Wasserstein 距离测量参考转换核扰动的 Robust Reinforcement Learning 算法 -WRAAC,该算法解决了当前学习算法中对于系统动态的鲁棒性不够精确的问题,并且在 Cart-Pole 环境中得到了验证。