CVPRMar, 2024
DiffSal: 扩散显著性预测的音频和视频联合学习
DiffSal: Joint Audio and Video Learning for Diffusion Saliency Prediction
Junwen Xiong, Peng Zhang, Tao You, Chuanyue Li, Wei Huang...
TL;DR本研究提出了一种基于扩散架构的音视频显著性预测方法(DiffSal),使用音频和视频作为条件,通过 Saliency-UNet 网络进行渐进细化来解决显著性图的生成问题,并在六个具有挑战性的音视频基准任务中取得了优秀的性能。