BriefGPT.xyz
Jun, 2019
神经近端/信任区域策略优化实现全局最优策略
Neural Proximal/Trust Region Policy Optimization Attains Globally Optimal Policy
HTML
PDF
Boyi Liu, Qi Cai, Zhuoran Yang, Zhaoran Wang
TL;DR
本文研究使用神经网络来完成深度强化学习中的策略优化,其中包括策略梯度和动作价值函数。在此基础上,通过分析无限维镜像下降的全局收敛性,证明了 PPO 和 TRPO 在使用过度参数化神经网络时收敛于全局最优策略,且收敛速度为次线性。
Abstract
proximal policy optimization
and
trust region policy optimization
(PPO and TRPO) with actor and critic parametrized by
neural networks
ach
→