BriefGPT.xyz
Mar, 2023
熵正则化强化学习的套娃政策梯度:收敛和全局最优性
Matryoshka Policy Gradient for Entropy-Regularized RL: Convergence and Global Optimality
HTML
PDF
François Ged, Maria Han Veiga
TL;DR
本研究介绍并研究了一种名为 Matryoshka Policy Gradient(MPG)的新型策略梯度算法,可在最大熵强化学习环境下学习相互关联的有限任务,证明了其收敛性和全局最优性,适用于神经网络参数化的策略优化,以及在标准测试基准上的数值评估。
Abstract
A novel
policy gradient
(PG) algorithm, called Matryoshka
policy gradient
(MPG), is introduced and studied, in the context of
max-entropy reinfor
→