Mar, 2023

熵正则化强化学习的套娃政策梯度:收敛和全局最优性

TL;DR本研究介绍并研究了一种名为 Matryoshka Policy Gradient(MPG)的新型策略梯度算法,可在最大熵强化学习环境下学习相互关联的有限任务,证明了其收敛性和全局最优性,适用于神经网络参数化的策略优化,以及在标准测试基准上的数值评估。