多模态动作识别中可学习的无关模态丢弃技术 —— 以特定模态注释视频为例

CVPRMar, 2022

多模态动作识别中可学习的无关模态丢弃技术 —— 以特定模态注释视频为例

Learnable Irrelevant Modality Dropout for Multimodal Action Recognition on Modality-Specific Annotated Videos

Saghir Alfasly, Jian Lu, Chen Xu, Yuru Zou

TL;DR通过使用语言模型构建语义音视频标签字典，本文提出了一种新的音视频框架来有效利用任何仅具有视觉注释的数据集中的音频模态，在训练阶段使用 SAVLD 以及预训练的多标签模型来估计音视频模态相关性，并提出了一种可学习的无关模态 dropout 方法；此外，本文还提出了一种新的双流视频 Transformer 来高效地建模视觉模态。 Kinetics400 和 UCF-101 上的结果表明，该框架优于大多数相关的行动识别方法。

Abstract

With the assumption that a video dataset is multimodality annotated in which auditory and visual modalities both are labeled or class-relevant, current multimodal methods apply modality fusion or cross-modality a

audio-visual framework action recognition modality dropout visual modalities multimodal methods

发现论文，激发创造

关于辍学引发的韧性研究，对于音频视觉语音识别中缺失视频帧的影响

研究了音频 - 视觉语音识别系统对缺失视频帧的敏感性问题，表明在应用 dropout 技术提高对缺失帧的鲁棒性的同时，也导致对完整数据输入性能的损失。通过揭示由于 dropout 引起的对音频存在过多的模态偏差，探究了这一对立现象，同时提出了模态偏差假设（MBH）以系统地描述多模态系统中模态偏差与缺失模态鲁棒性之间的关系。在此基础上，提出了一种新颖的多模态分布近似与知识蒸馏（MDA-KD）框架，可以减少对音频模态的过度依赖，同时维持性能和鲁棒性。最后，为了解决整个模态缺失的问题，采用适配器动态切换决策策略。通过使用 MISP2021 和 MISP2022 数据集进行一系列综合实验评估和验证了我们提出的方法的有效性。

Mar, 2024

MIS-AVioDD: 音频 - 视觉深度伪造检测的模态不变和特定表示

本文研究针对深度伪造技术的威胁，提出了一种在表征层面上辅助音频和视觉融合的多模态深度伪造检测方法，通过使用模态不变和特定的表征确保保留表示真实或伪造内容的共同模式和每个模态的特定模式，实验证明该方法相比于单模态和多模态音视频深度伪造检测的最先进方法能够提高 17.8% 和 18.4% 的准确性。

Oct, 2023

面向音视频零样本分类和检索的联合多模态嵌入

本文提出了一种基于视听多模态的零样本学习（ZSL）方法，针对视频进行分类和检索。作者证明了视听模态均对视频的 ZSL 非常重要，提出了一个利用已有大规模音频事件数据集构建的视听多模态数据集，并通过嵌入学习方法实现零样本分类和检索任务中加入音频模态的性能提升，并提出了一种新的方法来预测 ' 主导 ' 模态，从而证明了该视听多模态方法在未知测试类中仍具有推广能力。

Oct, 2019

由音频叙述引导的弱监督行为检测

提出了一种基于多模态学习和叙述监督的视频检测模型，可以从嘈杂的音频叙述中学习动作检测，从而降低标注的费用。

May, 2022

多流网络的模态蒸馏用于动作识别

本研究提出了一种新的多模态视频动作识别方法，利用 RGB 数据以外的深度数据进行训练，在测试时利用 RGB 数据进行分类，通过精简网络来进行深度特征的提取，经过实验得到了目前最佳的分类结果。

Jun, 2018

利用大型语言模型提升音频 - 视觉零样本学习的能力

我们提出了一种名为知识感知分布自适应 (KDA) 的简单而有效的框架，通过使用大型语言模型生成丰富的描述，从而更好地理解未知类别，并引入分布对齐损失和知识感知自适应边界损失来进一步提高对未知类别的泛化能力。在三个受欢迎的音视频零样本学习数据集上，广泛的实验结果表明我们的 KDA 方法优于现有的最先进方法。

Nov, 2023

基于模态感知的对比实例学习与自监督蒸馏用于弱监督的音视频暴力检测

本文提出一种基于弱监督学习的音视频暴力检测方法，通过模态感知对比学习与自我蒸馏策略，有效地提高了音视频一致性，克服了多通道学习中的异质性问题，并在大规模 XD-Violence 数据集上达到更优的检测性能。

Jul, 2022

多模态转移深度学习及其在音视频识别中的应用

这篇论文提出了一种转移学习框架，能将单一模态神经网络的知识迁移到另一个模态的网络上，通过语音数据微调已经训练过的视频识别网络，该方法首先学习抽象表示层中每个网络的类比映射，然后应用神经网络操作进行目标网络的微调，同时保持其拓扑不变，该框架能灵活地适用于任何多模态数据集或已存在的共享基础语义的深度网络。

Dec, 2014

跨模态关注和语言的视听通用零样本学习

该论文提出了基于视频和音频数据的零样本学习方法，通过跨模态注意力学习多模态表示，并利用文本标签嵌入将知识从已见类别转移到未见类别，并在三个不同规模和难度的音视频数据集上进行了基准测试，结果表明，所提出的 AVCA 模型在所有三个数据集上均取得了最先进的性能。

Mar, 2022

通用教师遇见弱监督音视频事件解析器

通过较大比例的对比预训练模型作为模态教师的视听标签阐述 (VAOLOR)，我们在视频的未对齐设置中识别音频和视觉事件，并取得最新的最新成果，在所有 LLP 指标上实现了显着的优势 (+5.4 F-score for Type @ AV)。

May, 2023