AAAIMar, 2024
对称 Q 学习:减小在线强化学习中贝尔曼误差的偏斜度
Symmetric Q-learning: Reducing Skewness of Bellman Error in Online Reinforcement Learning
Motoki Omura, Takayuki Osa, Yusuke Mukuta, Tatsuya Harada
TL;DR深度强化学习中,通过使用对称 Q 学习方法,将来自零均值分布的合成噪声添加到目标值中,从而生成高斯误差分布,以改善价值函数训练中的偏斜错误分布问题,并提高现有的强化学习方法在连续控制任务中的样本效率。