May, 2023

序列建模是离线强化学习的强有力竞争者

TL;DR该研究从数据子优劣性和任务复杂性两个方面探讨了离线强化学习的三种主要范式:Q-Learning、Imitation Learning 和 Sequence Modeling 的表现,并发现当接收到低质量数据并且奖励稀少时,Sequence Modeling 更优,因为它需要更多的数据但更加稳健且可以更好地适应任务复杂度。