Apr, 2019

使用声学图像的音视频模型蒸馏

TL;DR本研究旨在研究如何从视觉数据和新型的音频数据模式 —— 声学图像中学习丰富和强大的音频分类特征表示,通过利用新的多模态标记行动识别数据集,并针对性地训练音频深度学习模型,从视觉和声学图像方面实现知识蒸馏,以获得比单麦克风声音数据训练模型更强大和更具有一般化能力的特征表示。