Sep, 2023

神经策略镜面下降在低维流形上的策略优化的样本复杂度

TL;DR深度策略算法解决高维度策略优化问题取得了巨大成功,但目前的分析无法解释它们为何对维度诅咒具有抵抗能力。本研究以卷积神经网络作为函数逼近器,研究了神经策略镜像下降 (NPMD) 算法的样本复杂性。通过观察高维度环境具有低维结构的经验现象,例如图像作为状态的环境,我们认为状态空间是嵌入在欧几里得空间中的 d 维流形,其中 d 远小于 D。我们证明在 NPMD 的每次迭代中,值函数和策略都可以很好地近似于卷积神经网络。逼近误差由网络的大小控制,并且可以继承以前网络的平滑性。因此,通过适当选择网络大小和超参数,在期望中,NPMD 可以通过大约 O(ε^(-d/α-2)) 个样本找到一个 ε-最优策略,其中 α ∈ (0,1] 表示环境的平滑性。与以前的研究相比,我们的结果显示 NPMD 可以利用状态空间的低维结构,摆脱维度诅咒,从而解释深度策略算法的有效性。