Jul, 2020
离线强化学习的超参数选择
Hyperparameter Selection for Offline Reinforcement Learning
Tom Le Paine, Cosmin Paduraru, Andrea Michi, Caglar Gulcehre, Konrad Zolna...
TL;DR本篇论文研究了针对离线数据选择最佳 RL 策略的离线超参数选择方法,并通过大规模实证研究表明:1)离线 RL 算法对超参数的选择不具有健壮性,2)离线 RL 算法和 Q 值估计方法等因素对超参数选择具有较大影响,3)通过控制这些因素,我们可以可靠地对超参数选择进行排名,从而选择最接近设定中最佳策略的策略。