Jul, 2023

时间差异强化学习动力学

TL;DR本研究使用统计物理学的理论,研究了具有线性函数逼近器的时间差分学习的典型学习曲线。通过对小型马尔可夫决策过程进行验证,发现随机半梯度噪声导致价值误差的显著平台现象,并分析了如何使用学习率退火和奖励塑形等策略促进学习动态和平台的优化。