Oct, 2022
信任区域策略优化与最优输运差异:连续动作的对偶性和算法
Trust Region Policy Optimization with Optimal Transport Discrepancies:
Duality and Algorithm for Continuous Actions
TL;DR本文提出了一种基于Wasserstein距离的Policy Optimization算法,称为Optimal Transport Trust Region Policy Optimization(OT-TRPO),用于连续状态-动作空间中的任务,通过提供一维对偶重构来避免无限维度优化问题,实现了对最优策略更新的分析推导,并在各种控制任务中进行了实验验证,证明了与最先进的方法相比,其优化效果更好。