MMJul, 2023

音视频分割、声音定位、语义感知声音对象定位

TL;DR本研究提出了一种音频 - 视觉实例感知分割方法,旨在克服数据集偏差,并通过探索音频 - 视觉语义相关性来实现有效的声音对象分割。