Sep, 2023

大型状态空间下的分布鲁棒基于模型的强化学习

TL;DR提出了一种基于高斯过程和最大方差缩减算法的模型基础方法,用于学习多输出名义转移动力学,克服了强化学习中的若干挑战,并在分布移位方面展示了算法的鲁棒性以及样本数量上的优越性。