Jun, 2017

基于 3D 卷积神经网络的跨模态音视频匹配识别

TL;DR本文提出了一种利用耦合三维卷积神经网络架构来映射音频和视频流到统一表示空间,从而有效地找到不同模态之间时间信息的关联性的 AVR 方法,并且相对于现有的采用 3D CNN 特征表示的视听匹配方法,使用较小的网络架构和数据集进行训练,我们的方法显著提高了性能,相比于最先进的方法 Equal Error Rate(EER)的相对改进超过 20% ,而平均准确度(AP)的相对改进超过 7%。