Dec, 2023

离线政策选择对强化学习的样本效率何时有效?

TL;DR离线强化学习中的政策选择,样本效率,离线政策评估,以及贝尔曼误差估计等方面的研究。