Jun, 2024

半梯度 Q-learning 中的隐性偏差探究:通过福克 - 普朗克方程可视化有效的损失景观

TL;DR该论文介绍了在二维参数空间中构建和可视化有效损失景观,揭示了全局最小值如何转化为有效损失景观中的鞍点,以及半梯度方法的隐含偏差。此外,论文还证明了高维参数空间和神经网络设置下,从损失景观中的全局最小值产生的鞍点仍存在于有效损失景观中。该论文开发了一种新的方法来探究半梯度 Q-learning 中的隐含偏差。