AAAISep, 2023
声音提示分割是可推广的音频 - 视觉源定位器
Prompting Segmentation with Sound is Generalizable Audio-Visual Source Localizer
Yaoting Wang, Weisong Liu, Guangyao Li, Jian Ding, Di Hu...
TL;DR通过引入编码 - 提示 - 解码范式,本研究关注零样本和少样本情景下的视听定位和分割任务,并通过构建语义感知的音频提示和相关适配器,实现了在数据稀缺和数据分布差异方面的优越性能。