Feb, 2024

深度强化学习:凸优化方法

TL;DR本研究针对具有连续状态和动作空间的非线性系统考虑强化学习问题,提出了一种基于两层神经网络逼近最优 Q - 函数的序列学习算法,通过凸优化确保每个序列的权重得到最优化,针对稳定的非线性系统,证明了该算法的收敛性,并且训练得到的神经网络参数收敛到最优参数,两者之间的距离随着正则化参数的减小和时间跨度的增加变得任意小。