CVPRApr, 2024

TIM: 音视频动作识别的时间间隔机器

TL;DR在长视频中,多样的行为产生丰富的视听信号。我们通过显式地建模音频和视觉事件的时间范围,解决了长视频中这两种模态之间的相互作用。我们提出了一种时间间隔机器(TIM),其中以特定模态的时间间隔作为查询,将长视频输入馈入转换器编码器。然后,编码器会关注指定的时间间隔以及两种模态中的周围上下文,以识别正在进行的动作。我们在三个长音视频数据集上测试了 TIM,并在识别方面报告了最先进的结果。此外,我们展示了 TIM 可以适用于动作检测,并在大多数指标上超越了先前的最先进技术。我们的实验结果表明,在实现这种性能中,整合两种模态并对它们的时间间隔建模起着关键作用。