DiffSal: 扩散显著性预测的音频和视频联合学习

CVPRMar, 2024

DiffSal: 扩散显著性预测的音频和视频联合学习

DiffSal: Joint Audio and Video Learning for Diffusion Saliency Prediction

Junwen Xiong, Peng Zhang, Tao You, Chuanyue Li, Wei Huang...

TL;DR本研究提出了一种基于扩散架构的音视频显著性预测方法（DiffSal），使用音频和视频作为条件，通过 Saliency-UNet 网络进行渐进细化来解决显著性图的生成问题，并在六个具有挑战性的音视频基准任务中取得了优秀的性能。

Abstract

audio-visual saliency prediction can draw support from diverse modality complements, but further performance enhancement is still challenged by customized architectures as well as task-specific loss functions. In recent studies, denoising diffusion models have shown more promising in u

audio-visual saliency prediction diffusion architecture saliency map saliency-unet multi-modal attention modulation

发现论文，激发创造

音视频显著性预测的双域对抗学习

本文研究了使用双领域对抗学习算法来解决音频视觉显著性预测中源域数据分布不一致与目标域数据性能降解问题，其方法包括建立与对齐声学特征分布、跨模态自注意力模块融合声学特征至视觉特征、降低视觉特征及融合后的音视频相关性中的领域差异等。实验结果说明该方法可以缓解由领域差异导致的性能下降问题。

Aug, 2022

MM-Diffusion：学习多模态扩散模型用于联合音频和视频生成

本文介绍了一种基于 Multi-Modal Diffusion 模型，利用两个耦合的自编码器进行序列多模态非线性去噪，提出了一种随机平移注意力块用于跨模态对齐，以实现音视频帧的生成并提高音视频质量

Dec, 2022

对比条件潜扩散在视听分割中的应用

通过潜在扩散模型和对比学习，我们提出了一种用于音频 - 视觉分割的模型，以深入探究音频的贡献。我们将音频视为有条件生成任务，其中音频被定义为声音生成器分割的条件变量。我们的潜在扩散模型通过对地面真实分割地图的条件生成过程进行学习，确保了音频与最终分割地图的相关性。对比学习使我们的模型学习音频 - 视觉对应关系，并最大化模型预测和音频数据之间的互信息，从而明确地增加音频对音频 - 视觉分割的贡献。实验结果验证了我们解决方案的有效性。

Jul, 2023

音频驱动的预训练扩散模型生成与编辑

我们提出了一种能够在大规模图像扩散模型中实现音频条件的方法，通过将从音频剪辑中获取的特征映射到可以注入扩散模型的令牌中，引入了额外的音频 - 图像交叉注意力层，可以与扩散编辑方法相结合进行音频条件的图像编辑。

May, 2024

鉴别器引导的合作扩散用于联合音频和视频生成

通过利用预训练的单模态音频和视频生成模型，我们旨在构建一个计算成本最小化的音频 - 视频生成模型。为了实现这一目标，我们提出了一种新方法，通过引导每个单模态模型来协作生成跨模态对齐的样本。我们在几个基准数据集上的实证评估表明，我们的方法改进了单模态的准确度和多模态的对齐，同时具有相对较少的参数。

May, 2024

学习预测显著面孔：一种新的视听显著性模型

本文通过建立大规模的多人面部视频音频条件下的视线跟踪数据库，研究声音对多人面部视频视觉线索的影响，并提出了一种新的多模式视频显着性模型，包括三种分支：视觉，音频和面部，实验结果表明该方法胜过 11 种现有的显着性预测方法。

Mar, 2021

一种适用于音视频生成的多功能扩散变压器

通过使用新的训练方法和变量扩散时间步长，我们提出了一种基于转换器的音视频潜在扩散模型，可在任务不可知的情况下进行训练，并在推理过程中实现各种音视频生成任务，克服基线模型在生成条件输入上的时间和感知上的不连贯样本的局限性。

May, 2024

DAVE: 动态显著性预测的深度音视频嵌入

本文研究音频 - 视觉深度显著性预测，介绍了一种称为 “DAVE” 的动态显著性预测的概念简单而有效的深度音频 - 视觉嵌入，并与我们建立的音频 - 视觉注视数据集 “AVE” 相结合。

May, 2019

ViNet: 将视觉模态推至极限，用于音频视觉显著性预测

提出了 ViNet 架构用于音频 - 视觉显著性预测，其采用全卷积编码器 - 解码器架构，利用动作识别网络的视觉特征来编码，通过三线性插值和 3D 卷积生成显著性图，没有使用音频作为输入，但是在 9 个不同的数据集上，仍然优于现有的音频 - 视觉显著性预测模型，而且还超过人类在某些度量标准上的表现，此外，还探索了一个在解码器中将音频特征纳入架构中的变体，得出了一些有趣的结论。

Dec, 2020

统一图像和视频显著性建模

本文提出了一种称为 UNISAL 的简单轻量的编码器 - RNN - 解码器风格网络，以同时对图像和视频显著性数据进行训练，并使用四种新颖的域自适应技术 - 域自适应先验，域自适应融合，域自适应平滑和旁路 - RNN 处理域偏移问题，在 DHF1K、Hollywood-2 和 UCF-Sports 等视频数据集以及 SALICON 和 MIT300 等图像数据集上取得了最先进的性能

Mar, 2020