AAAIMar, 2024

对称 Q 学习:减小在线强化学习中贝尔曼误差的偏斜度

TL;DR深度强化学习中,通过使用对称 Q 学习方法,将来自零均值分布的合成噪声添加到目标值中,从而生成高斯误差分布,以改善价值函数训练中的偏斜错误分布问题,并提高现有的强化学习方法在连续控制任务中的样本效率。