Apr, 2023
预训练语言模型作为人类辅助的视觉规划器
Pretrained Language Models as Visual Planners for Human Assistance
Dhruvesh Patel, Hamid Eghbalzadeh, Nitin Kamra, Michael Louis Iuzzolino, Unnat Jain...
TL;DR本研究提出了『Visual Planning for Assistance (VPA)』的任务,通过视频中的行动段落和预测,使用预训练语言模型处理长时间的视频历史数据和复杂的行动依赖关系,从而使『multi-modal AI assistants』能够指导用户攻克复杂的多步骤目标。