Apr, 2018

自监督多感官特征的音频-视觉场景分析

TL;DR本文提出了一种融合多感官表征的方法,通过神经网络自动预测视频帧和音频的时间对齐情况,实现声音定位、视听行为识别和音频源分离等三个应用。