Apr, 2023

预训练语言模型作为人类辅助的视觉规划器

TL;DR本研究提出了『Visual Planning for Assistance (VPA)』的任务,通过视频中的行动段落和预测,使用预训练语言模型处理长时间的视频历史数据和复杂的行动依赖关系,从而使『multi-modal AI assistants』能够指导用户攻克复杂的多步骤目标。