Jun, 2024
半梯度 Q-learning 中的隐性偏差探究:通过福克 - 普朗克方程可视化有效的损失景观
Probing Implicit Bias in Semi-gradient Q-learning: Visualizing the Effective Loss Landscapes via the Fokker--Planck Equation
Shuyu Yin, Fei Wen, Peilin Liu, Tao Luo
TL;DR该论文介绍了在二维参数空间中构建和可视化有效损失景观,揭示了全局最小值如何转化为有效损失景观中的鞍点,以及半梯度方法的隐含偏差。此外,论文还证明了高维参数空间和神经网络设置下,从损失景观中的全局最小值产生的鞍点仍存在于有效损失景观中。该论文开发了一种新的方法来探究半梯度 Q-learning 中的隐含偏差。