ECCVJan, 2023

带语义的音视频分割

TL;DR本论文提出了一种新的问题 —— 音视频分割(AVS),旨在为可听的视频帧中产生声音的物体输出像素级地图,并构建了第一个 audio-visual segmentation(AVS)基准,即 AVSBench,为声音对象提供像素级注释。通过使用一种基于时间的像素级音视频交互模块注入音频语义指导视觉分割过程并设计一种正则化损失来鼓励训练期间的音视频映射,实验表明我们的方法能够有效地解决这个问题。