高效的选择性音频屏蔽多模声道变换器用于音频 - 视频分类
本文介绍了一种多尺度多模态转换器(MMT),利用层次化表示学习,进一步使用音频 - 视频对比损失和同模态对比损失来实现多模态融合,提高动作识别准确率。
Jan, 2024
该论文介绍了一种新的参数高效的视听变压器 MA-AVT,采用深度模态对齐来实现对应的多模态语义特征的对齐,通过联合单模态和多模态令牌学习,引入冻结的模态共享变压器,使模型能够学习到每种模态的独立表示,并关注它们之间的跨模态关系。此外,在编码阶段引入块对齐性学习以对齐粗粒、细粒的层次特征,并引入鲁棒的判别前景挖掘机制以抑制每种模态中的背景特征。通过在 benchmark AVE、VGGSound 和 CREMA-D 数据集上进行的大量实验,该方法在性能上取得了显著的改进。
Jun, 2024
我们提出了一种使用无标签数据学习多模态表示的框架,利用无卷积的 Transformer 架构。通过使用多模态对比损失训练 Video-Audio-Text Transformer (VATT),我们从三个模态中提取丰富的多模态表示,并在视频动作识别、音频事件分类、图像分类和文本到视频检索等下游任务中对其性能进行评估。VATT 不需要监督预训练,其视觉 Transformer 在 Kinetics-400 上实现了 82.1%、在 Kinetics-600 上实现了 83.6%、在 Kinetics-700 上实现了 72.7%、在 Moments in Time 上实现了 41.1% 的最高准确率,并且将 VATT 迁移至图像分类任务中,其 ImageNet 的最高准确率达到了 78.7%。VATT 的音频 Transformer 在 AudioSet 上实现了 39.4% 的 mAP,而不需要监督预训练,表现出模型的泛化能力。
Apr, 2021
通过引入多模式变压器架构来深度融合和聚合音频 - 视觉特征,我们提出了一种新颖的音频感知查询增强转换器 (AuTR),用于解决音频 - 视觉分割任务。实验结果表明,我们的方法在多声音和开放场景中具有更好的普适性和性能优势。
Jul, 2023
本研究提出了一种基于音频和视觉操纵的音视频伪造检测模型,使用 Transformer 框架,通过多个变体捕捉视觉、音频和音视频显著线索,并在最新发布的 FakeAVCeleb 数据集上取得了最好的性能。
Oct, 2023
本研究针对音视频表示学习中的多模态转换器,通过分解模态特定和模态共享部分,基于低秩逼近提出了一种新的参数共享方案来降低其参数,并提出一种基于 CNN 嵌入空间的实例相似性负采样方法,可以将模型从头开始训练,并通过预先训练的方式在 Kinetics-700 上演示了我们的方法。
Dec, 2020
本篇论文介绍了一种基于 transformer 的新颖架构,使用多层的融合瓶颈来进行多模态融合,实现了在多个音视频分类基准测试上的最新的结果,同时降低了计算成本。
Jun, 2021
该论文提出了一种基于多模态视频变换器 (MM-ViT) 的纯 Transformer 方法,其能够从压缩视频领域的多个可用模态中获取信息并实现动作识别,采用多个可扩展模型变量来处理来自多个模态的大量空间和时间令牌,进一步探索其丰富的模态间互动和效果,并比较了三种不同的跨模态注意机制。该方法在三个公共的动作识别基准测试(UCF-101,Something-Something-v2,Kinetics-600)上表现出超越现有技术的性能,既高效又精确。
Aug, 2021
本文介绍了一种基于 Transformer 结构的双模态编码器,用于处理 Dense Video Captioning 任务,通过同时处理视频和音频两种输入,该模型在 ActivityNet Captions 数据集上取得了出色的性能表现。
May, 2020
该研究提出了一种通用的多模态转换器,并引入了多任务学习的方法,以解决视频聊天中的音视频场景感知对话生成任务,并将自然语言生成预训练模型扩展到多模态对话生成任务。我们的系统在该挑战中取得了最佳表现。
Feb, 2020