Oct, 2024

深度强化学习中的动态学习率:一种赌徒方法

TL;DR本研究解决了深度强化学习中学习率选择与优化器的重要性问题,尤其是在非平稳目标函数的情况下。通过提出基于多臂赌博机算法的动态学习率(LRRL)方法,该研究有效地根据代理的训练表现调整学习率,从而显著提升深度RL算法的性能。