Jan, 2024

关于样本高效的离线强化学习:数据多样性,后验采样和更多

TL;DR我们提出了一个新颖的基于后验采样的离线 RL 算法,该算法在样本效率方面表现出与基于版本空间和经验正则化的算法可比拟的性能,并且具有频率主义的亚优性界限。