BriefGPT.xyz
大模型
Ask
alpha
关键词
audio-video recognition
搜索结果 - 1
高效的选择性音频屏蔽多模声道变换器用于音频 - 视频分类
提出了一种名为 AVT 的新颖的音视频识别方法,利用视频 Transformer 在时空上的表示来提高动作识别的准确性,并通过音视频瓶颈 Transformer 减少跨模态复杂度,融合自监督目标,而进一步引入一个屏蔽音频片段损失,以学习 A
→
PDF
6 months ago
Prev
Next