Jan, 2017

AENet: 学习视频分析的深度音频特征

TL;DR提出了一种新的深度网络用于音频事件识别,名为 AENet,该网络采用卷积神经网络以在时间维度上对音频事件进行长时间频率结构的建模来训练端到端的音频事件检测系统,在事件识别、动作识别和视频亮点检测等视听任务中,结合 AENet 特征和视觉特征效果显著。