Dec, 2023

离线强化学习中的泛化缺陷

TL;DR该研究通过比较在线学习和离线学习等方法的泛化能力,引入离线学习泛化性能评估的新基准,并发现离线学习算法在新环境中的表现不如在线学习算法,而增加数据多样性能够提高离线学习算法在新环境中的性能。