多模态平衡感知梯度调控弱监督音视频解析

Jul, 2023

多模态平衡感知梯度调控弱监督音视频解析

Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised Audio-Visual Video Parsing

PDF

Jie Fu, Junyu Gao, Changsheng Xu

TL;DR本文提出了一种利用动态梯度调制机制来平衡不同语音和视觉模态特征学习的方法，并设计了一种实现精确测量的模态分离决策单元来处理多模式混淆问题，实验证明该方法的有效性。

Abstract

weakly-supervised audio-visual video parsing (WS-AVVP) aims to localize the temporal extents of audio, visual and →

weakly-supervised audio-visual video parsing imbalanced feature learning dynamic gradient modulation

发现论文，激发创造

统一的多感知知觉：弱监督的音频 - 视觉视频解析

本文介绍了音频 - 视觉视频解析的问题，并提出了一个新的混合注意力网络方法和一种自适应 MMIL 池化方法来解决多模态多实例学习问题，以及利用标签平滑技术来减轻模态偏置和嘈杂标签问题。实验结果表明，即使只有视频级弱标签，也可以实现具有挑战性的音频 - 视觉视频解析。

Jul, 2020

多损失梯度调节改进多模态学习

通过学习多种模态（如音频和视频）可以利用互补信息，提高模型性能，本文提出了一种多损失目标和改进的平衡过程，通过动态调整不同模态的学习速度来实现更好的结果。

May, 2024

从语言角度重新审视基于弱监督的音视频分析

本文提出通过语言描述每个视频段的事件出现情况并计算语言提示与段落的相似度来识别事件并调整不可靠段落标签的方法，优于现有同类方法。

Jun, 2023

跨模态学习用于视听视频解析

本文介绍了一种新的音频 - 视觉视频解析（AVVP）任务的方法，该方法将音频和视觉模态中的事件分开，在时间上同时检测这些事件的开始和结束，并利用对抗性训练、全局上下文知觉关注和自监督预训练来获得跨模态的音频 - 视频表示，实验结果表明本文的方法在 AVVP 任务上比现有的 HAN 模型更好。

Apr, 2021

MA-AVT：用于参数高效音频 - 视觉变换器的模态对齐

该论文介绍了一种新的参数高效的视听变压器 MA-AVT，采用深度模态对齐来实现对应的多模态语义特征的对齐，通过联合单模态和多模态令牌学习，引入冻结的模态共享变压器，使模型能够学习到每种模态的独立表示，并关注它们之间的跨模态关系。此外，在编码阶段引入块对齐性学习以对齐粗粒、细粒的层次特征，并引入鲁棒的判别前景挖掘机制以抑制每种模态中的背景特征。通过在 benchmark AVE、VGGSound 和 CREMA-D 数据集上进行的大量实验，该方法在性能上取得了显著的改进。

Jun, 2024

音视频说话人验证的弱监督多任务学习

本文介绍了一种实现鲁棒的多模式人物表示以优化开放式音视频说话人验证的方法。通过探索多任务学习技术，我们提高了距离度量学习方法的性能，并展示了一个弱标签的辅助任务可以增加学习到的说话人表示的紧凑性。同时，我们将广义端到端损失（GE2E）扩展到多模态输入，并证明其在音视频领域可以达到竞争性的性能。最后，我们引入了一种非同步音视频采样的随机策略，该策略在训练时能改善泛化效果。我们的网络在说话人验证方面达到了最先进的水平，并在 VoxCeleb1-O/E/H 的三个官方试验列表中报告了 0.244%、0.252%、0.441% 的等错误率（EER），据我们所知，这是 VoxCeleb1-E 和 VoxCeleb1-H 的最佳已发表结果。

Sep, 2023

通过即时梯度调控实现平衡多模态学习

本文研究了多模式学习中可能存在的优化失衡问题，提出了一种新的梯度调节方法，通过动态监测不同输入模态的贡献来自适应地优化每个模态，以解决某些场景下存在的支配模态问题，并且在不同的多模式任务中能够获得显著的改进效果。

Mar, 2022

无约束视频中的视听事件定位

本文介绍了一个新的无约束视频中的音频视觉事件定位问题，使用 AVE 数据集进行研究，提出了使用双模态残差网络结合音频引导视觉注意力机制处理音频视觉相关性的方案，并针对跨模态定位提出跨模态距离学习网络。实验结果表明，联合建模听觉和视觉模型优于独立建模，学习到的注意力可以捕捉声音对象的语义，音频视觉融合的时序对齐很重要，所提出的 DMRN 在融合音频视觉特征方面非常有效，两个模态之间的强相关性使跨模态定位成为可能。

Mar, 2018

情感回归和分类任务中处理单一和多模态的多功能视听学习

提出了用于处理单模式和多模式情感情况的多功能音视频学习框架，通过音视频共享层，残差连接和单模态重构任务实现有效的表示学习，在情感属性预测任务上达到了新的最先进性能。

May, 2023

通用教师遇见弱监督音视频事件解析器

通过较大比例的对比预训练模型作为模态教师的视听标签阐述 (VAOLOR)，我们在视频的未对齐设置中识别音频和视觉事件，并取得最新的最新成果，在所有 LLP 指标上实现了显着的优势 (+5.4 F-score for Type @ AV)。

May, 2023