May, 2024

上下文决策变换器:通过分层思维链强化学习

TL;DR提出了一种高层次的基于试错的方法,通过在环境中提供任务提示来实现离线强化学习的上下文学习,可以更高效地解决在线任务,并在长期任务中取得了最先进的结果。