Jul, 2020

离线强化学习的超参数选择

TL;DR本篇论文研究了针对离线数据选择最佳 RL 策略的离线超参数选择方法,并通过大规模实证研究表明:1)离线 RL 算法对超参数的选择不具有健壮性,2)离线 RL 算法和 Q 值估计方法等因素对超参数选择具有较大影响,3)通过控制这些因素,我们可以可靠地对超参数选择进行排名,从而选择最接近设定中最佳策略的策略。