CVPRMar, 2022

从未修剪的网络视频中学习对象状态和状态修改动作寻找变化

TL;DR本文提出一种自我监督的模型,能够在长视频中联合学习目标物体的状态(例如,空杯子和满杯子)及其相应的状态变化行为(如 “倒咖啡”),并针对噪声数据和未筛选的视频数据分别采用噪声自适应加权模块和新的视频数据集进行监督训练,并在目标动作和物体状态识别方面都实现了相当大的进步。