Jun, 2022

熵正则化神经自然演员 - 评论家算法的有限时间分析

TL;DR本文针对神经网络近似的 NAC 算法进行了有限时间分析,并指出了神经网络、正则化和优化技术在样本复杂性、迭代复杂性和过度参数化上达到证明良好性能的作用,特别地,我们证明熵正则化和平均化通过提供足够的探索避免了过于确定性和严格次优策略,正则化导致了在正则化 MDPs 中的尖锐样本复杂度和网络宽度,这在策略优化中产生了有利的偏差 - 方差权衡,而在此过程中,我们还发现了在全局优化中实现演员神经网络的均匀逼近能力的重要性,因为其具有分布转移的特征。