Dec, 2021

离线强化学习通过监督学习的必要条件是什么?

TL;DR离线强化学习中的监督学习方法及其必要算法组件已被证明可以达到与基于 TD 学习或序列建模的复杂方法相当的高效性;如何选择模型容量和条件信息(例如目标或奖励)可以对性能产生至关重要的影响,这提供了对 RvS 学习从业者的指南。