Jul, 2023

PASTA:预训练的动作 - 状态 Transformer 代理

TL;DR通过自我监督学习,本研究建立了一种预训练行为 - 状态 Transformer 代理模型(PASTA),并在行为克隆、离线 RL、传感器故障鲁棒性以及动态变化适应等广泛领域的下游任务中进行了综合研究和比较设计选择,以提供有价值的见解给从业者,从而构建更加鲁棒的模型并推动 RL 策略学习的发展。