Oct, 2023

通过对抗性行为来抑制 Q 学习中的过高估计

TL;DR通过引入虚拟对手行为的虚拟对手 Q 学习(DAQ)算法,该论文旨在解决标准 Q 学习中过高估计偏差的问题,将学习过程建模为一个双人零和博弈,并统一了几种控制过高估计偏差的 Q 学习变体。通过将 DAQ 应用于现成的强化学习算法,可以简单有效地抑制过高估计偏差,并通过运用对抗性 Q 学习的整合视角分析了 DAQ 的有限时间收敛性,通过多个基准环境的实证研究展示了 DAQ 的性能。