Nov, 2022

离线元强化学习的上下文变换器

TL;DR本文探讨了如何通过 prompt tuning 和 Contextual Meta Transformer 算法来提高基于序列建模的离线强化学习算法的性能,并在三种不同的离线 RL 设置下进行了广泛的实验,验证了方法的高效性和普适性。