May, 2022

纯粹确定性策略优化

TL;DR本文提出了一种政策梯度方法,避免引入探索性噪声并在确定性景观上执行政策搜索,使用 Wasserstein-based 二次模型进行确定性政策正则化,适用于机器人控制环境。