CVPRMar, 2023

面向操作流程的指导视频理解预训练

TL;DR本研究旨在利用视频表示学习技术,通过构建 Procedural Knowledge Graph (PKG) 生成伪标签来训练视频表示模型,以提高多种程序理解任务的精度。其中 PKG 结构由通过无标签的教学视频和基于文本的程序知识库信息融合而成,训练数据使用了四个新的预训练目标。最终模型 Paprika 在 12 个任务上实现了高达 11.23% 的精度提升。