Nov, 2023

视频本地化指令生成的高效预训练

TL;DR通过Sieve和Swap技术自动筛选和替换人工写入的文本指导,构建一个比当前大规模数据集小三个数量级的精选数据集,从而提高大规模模型在过程视频中的性能。同时使用Procedure Transformer (ProcX)进行步骤定位和指导生成,以零-shot和微调设置在YouCook2和Tasty数据集上取得了最先进的性能,并且使用了较少的计算资源。