Dec, 2023

视频中学习对象状态变化:一个开放世界的视角

TL;DR对象状态变化(OSC)对于视频理解至关重要。我们引入了一种新颖的开放世界表述,用于视频 OSC 问题。我们开发了 VidOSC,一种整体学习方法,利用文本和视觉 - 语言模型提供监督信号来消除手动标注 OSC 训练数据的需要,并从对象中抽象出细粒度的共享状态表示来增强泛化性能。此外,我们提出了 HowToChange,这是第一个用于视频 OSC 定位的开放世界基准,与现有最佳基准相比,其标签空间和注释量增加了一个数量级。实验结果证明了我们方法在传统闭世界和开放世界场景中的有效性。