CVPRMar, 2023

从说明视频和其叙述中学习过程感知视频表示

TL;DR研究利用大量网络教学视频和其解说学习视频表示方法,以编码动作步骤及其时间排序,推动步骤分类和预测等领域的发展。通过深度概率模型同时学习视频表示和时间依赖关系,且在 COIN 和 EPIC-Kitchens 等数据集上,具有比同类研究更明显的提升。同时,该研究对于不完整步骤的步骤推测也有良好的表现。