BriefGPT.xyz
Ask
alpha
关键词
audiovisual data set
搜索结果 - 1
面向大规模分类和弱标注音频事件同步的音频视觉转换器架构
本文报道了一种基于 transformer 神经网络的多模式音视频分类方法,具有较高的准确度,同时还证明了在某些情况下,视觉信息对这个任务是非常有用的。
PDF
5 years ago
Prev
Next