Oct, 2024
通过联合优化的世界-动作模型预训练扩展离线基于模型的强化学习
Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model
Pretraining
TL;DR本研究解决了离线强化学习中建立通用智能体的难题,特别是在缺乏专家轨迹和普遍性任务泛化方面的局限。我们提出了JOWA模型,这是一种基于多个Atari游戏进行预训练的离线模型,能够学习通用表示和决策能力。实验证明,该模型在仅使用10%的离线数据情况下,表现超过现有基线,显示了其在新游戏上的高效迁移和优越泛化能力。