Nov, 2022

离线强化学习中的 Q-Ensemble 方法:不是扩大模型规模而是扩大训练批次

TL;DR本研究在深度离线强化学习方法中探讨了大批量优化的应用,提出采用适当的学习率调整和小批量缩放的方法,可以明显地加快模型训练速度,从而在控制 Q-ensemble 数量、强化对分布外行为的惩罚力度和提高收敛速度等方面产生了积极的效应。