BriefGPT.xyz
Ask
alpha
关键词
audio-visual signals
搜索结果 - 1
CVPR
TIM: 音视频动作识别的时间间隔机器
在长视频中,多样的行为产生丰富的视听信号。我们通过显式地建模音频和视觉事件的时间范围,解决了长视频中这两种模态之间的相互作用。我们提出了一种时间间隔机器(TIM),其中以特定模态的时间间隔作为查询,将长视频输入馈入转换器编码器。然后,编码器
→
PDF
3 months ago
Prev
Next