Mar, 2023

教学视频中任务结构的学习与验证

TL;DR本论文介绍了一种新的预训练视频模型,VideoTaskformer,利用遮盖步骤建立弱监督学习任务,学习全局步骤表示,实现对多步骤任务的表示和预测。同时提出了两个新的基准测试来检测指令视频中的错误步骤和步骤执行顺序,以及一项长期预测基准测试,均取得了优于现有基线的性能,适用于评估全球学习的步骤表示质量。