Mar, 2021

使用预训练神经表示的离线强化学习的不稳定性

TL;DR本研究从实证的角度研究了离线强化学习的稳定性,尝试使用来自预训练神经网络的特征进行样本高效的离线强化学习,结果表明即使使用这种预训练表示,仍然存在显著的误差扩大,离线强化学习仅在极小的分布偏移范围内是稳定的。这些结果表明,成功的离线强化学习需要更强的条件,这些条件超出了成功监督学习所需的条件。