Oct, 2022
信任区域策略优化与最优输运差异:连续动作的对偶性和算法
Trust Region Policy Optimization with Optimal Transport Discrepancies: Duality and Algorithm for Continuous Actions
Antonio Terpin, Nicolas Lanzetti, Batuhan Yardim, Florian Dörfler, Giorgia Ramponi
TL;DR本文提出了一种基于 Wasserstein 距离的 Policy Optimization 算法,称为 Optimal Transport Trust Region Policy Optimization(OT-TRPO),用于连续状态 - 动作空间中的任务,通过提供一维对偶重构来避免无限维度优化问题,实现了对最优策略更新的分析推导,并在各种控制任务中进行了实验验证,证明了与最先进的方法相比,其优化效果更好。