ECCVDec, 2017

发出声音的物体

TL;DR本文提出了一种利用未标记视频进行跨模态自监督学习的网络架构,实现音频和视觉之间的信息检索和图像中声音对象的准确定位,同时探究了基于 AVC 任务的网络架构设计方法,并与此相关的数据准备问题进行了讨论。