Oct, 2022

信任区域策略优化与最优输运差异:连续动作的对偶性和算法

TL;DR本文提出了一种基于 Wasserstein 距离的 Policy Optimization 算法,称为 Optimal Transport Trust Region Policy Optimization(OT-TRPO),用于连续状态 - 动作空间中的任务,通过提供一维对偶重构来避免无限维度优化问题,实现了对最优策略更新的分析推导,并在各种控制任务中进行了实验验证,证明了与最先进的方法相比,其优化效果更好。