音视频显著性预测的双域对抗学习

MMAug, 2022

音视频显著性预测的双域对抗学习

Dual Domain-Adversarial Learning for Audio-Visual Saliency Prediction

Yingzi Fan, Longfei Han, Yue Zhang, Lechao Cheng, Chen Xia...

TL;DR本文研究了使用双领域对抗学习算法来解决音频视觉显著性预测中源域数据分布不一致与目标域数据性能降解问题，其方法包括建立与对齐声学特征分布、跨模态自注意力模块融合声学特征至视觉特征、降低视觉特征及融合后的音视频相关性中的领域差异等。实验结果说明该方法可以缓解由领域差异导致的性能下降问题。

Abstract

Both visual and auditory information are valuable to determine the salient regions in videos. Deep convolution neural networks (CNN) showc

auditory visual neural networks unsupervised domain adaptation cross-modal attention

发现论文，激发创造

DiffSal: 扩散显著性预测的音频和视频联合学习

本研究提出了一种基于扩散架构的音视频显著性预测方法（DiffSal），使用音频和视频作为条件，通过 Saliency-UNet 网络进行渐进细化来解决显著性图的生成问题，并在六个具有挑战性的音视频基准任务中取得了优秀的性能。

Mar, 2024

跨领域音视频欺诈检测的基准测试

通过使用跨领域基准测试，提出了一种多模态特征的注意力混合方法，用于改进自动欺骗检测的性能。

May, 2024

无监督领域分离网络的自适应算法用于强化语音识别

本文提出了一种基于深度神经网络的非监督领域自适应技术，该技术通过训练既能执行音素分类，又能执行领域分类的 DNN 模型，并明确建模两个域之间的不同之处，可以在 CHiME-3 数据集上实现接近 11.08％的相对词错误率（WER）降低。

Nov, 2017

使用对抗性损失对卷积神经网络进行生物医学图像分割的无监督跨模态域自适应

本文提出一种基于对抗学习的无监督域适应框架，通过一个域适应模块和一个域批判模块来实现不同模态医学图像分割的跨域问题，无需使用目标域标签信息，仅利用 MRI 图像训练的卷积神经网络适应非配对的 CT 数据来进行心脏结构分割，取得了良好的结果。

Apr, 2018

鲁棒音频视觉实例判别

本文介绍了一种自监督学习方法，以学习音频和视频表征，并通过行动识别任务的实验验证了其解决音频 - 视觉实例区别问题和提高迁移学习性能的贡献。

Mar, 2021

DAVE: 动态显著性预测的深度音视频嵌入

本文研究音频 - 视觉深度显著性预测，介绍了一种称为 “DAVE” 的动态显著性预测的概念简单而有效的深度音频 - 视觉嵌入，并与我们建立的音频 - 视觉注视数据集 “AVE” 相结合。

May, 2019

对比和混合：利用背景混合的时间对比视频域自适应

本文介绍了 Contrast and Mix（CoMix）的新对比学习框架，旨在为无监督的视频领域适应学习具有判别不变性的特征表示。与现有方法依靠对抗学习进行特征对齐不同，我们利用时间对比学习通过最大化未标记视频在两个不同速度下的编码表示的相似性以及最小化不同速度下播放的不同视频的相似性来弥合领域差距，还利用背景混合提出了一种用于时间对比性损失的新型扩展，从而允许每个锚点附加附加正物，增加视频领域适应的语义分享。此外，我们还使用目标伪标签集成了有监督的对比性学习目标，以增强视频领域适应的潜在空间的可区分性。在几个基准数据集上进行的广泛实验验证了我们所提出的方法的优越性。

Oct, 2021

多模态视频主题分割与双对比领域适应

基于多模态的视频主题分段器利用视频转录和帧，结合跨模态注意机制，提出了一种双对比学习框架，从而提高我们的模型对更长、更语义复杂的视频的适应能力。在短视频和长视频集合上的实验证明，我们的解决方案明显优于基准方法，无论是准确度还是可转移性，在域内和跨领域设置下都有显著提升。

Nov, 2023

通过发现潜在领域来提升域自适应

本文提出了一种基于深度卷积神经网络的领域自适应方法，在自动发现图像数据集中的潜在领域并利用此信息来学习鲁棒的目标分类器方面取得了显著优于现有方法的结果，其中引入了两个主要组件，一个是自动计算源样本分配到潜在领域的支路，另一个是利用领域成员信息对齐 CNN 内部特征表示分布的新型图层。

May, 2018

双模态 seq2seq 网络用于音频 - 视觉事件定位

本文介绍了一种名为 AVSDN 的深度神经网络，通过联合考虑每个时间段的音频和视觉特征作为输入，以序列到序列的方式学习全局和局部事件信息，在完全监督或弱监督设置下获得了良好的结果，并在音频视觉事件定位方面优于最近的深度学习方法。

Feb, 2019