May, 2023

重新审视离线强化学习的极简主义方法

TL;DR通过设计实验,研究离线强化学习算法中较不重要但仍影响效果的设计决策,并提出了一种集成这些设计元素的算法 ReBRAC,它在 51 个数据集上得到了最先进的表现。通过大规模实验,我们进一步证明了这些设计决策的功效。