May, 2024

iVideoGPT: 可扩展世界模型的交互式 VideoGPT

TL;DR通过引入 Interactive VideoGPT (iVideoGPT) 框架,可以在实现世界决策过程中,使模型交互地探索、推理和规划。 iVideoGPT 通过将多模态信号(视觉观察,行为和奖励)整合成一系列令牌,实现了通过下一个令牌预测的交互式体验,其中包括一种高效离散化高维视觉观察的新型压缩词汇化技术。借助其可扩展的架构,我们能够在数百万人类和机器人操作轨迹上进行预训练,建立起适用于各种下游任务的多功能基础,其中包括动作条件的视频预测,可视化规划和基于模型的强化学习,并且在与最先进方法相比,iVideoGPT 实现了竞争性的性能。我们的工作推进了交互式通用世界模型的发展,弥合了生成式视频模型和实际模型导向强化学习应用之间的差距。