Aug, 2024

无学习率强化学习:非平稳目标下的模型选择案例

TL;DR本研究解决了强化学习算法在超参数选择上的敏感性,特别是学习率设置不当导致的收敛失败问题。提出了一种无学习率强化学习的模型选择框架,通过实时选择最佳学习率来提高算法性能。实验结果表明,在超参数的最优选择是时间依赖且非平稳时,数据驱动的模型选择算法优于传统的强盗算法。