多模态平衡感知梯度调控弱监督音视频解析
本文介绍了音频 - 视觉视频解析的问题,并提出了一个新的混合注意力网络方法和一种自适应 MMIL 池化方法来解决多模态多实例学习问题,以及利用标签平滑技术来减轻模态偏置和嘈杂标签问题。实验结果表明,即使只有视频级弱标签,也可以实现具有挑战性的音频 - 视觉视频解析。
Jul, 2020
通过学习多种模态(如音频和视频)可以利用互补信息,提高模型性能,本文提出了一种多损失目标和改进的平衡过程,通过动态调整不同模态的学习速度来实现更好的结果。
May, 2024
本文介绍了一种新的音频 - 视觉视频解析(AVVP)任务的方法,该方法将音频和视觉模态中的事件分开,在时间上同时检测这些事件的开始和结束,并利用对抗性训练、全局上下文知觉关注和自监督预训练来获得跨模态的音频 - 视频表示,实验结果表明本文的方法在 AVVP 任务上比现有的 HAN 模型更好。
Apr, 2021
该论文介绍了一种新的参数高效的视听变压器 MA-AVT,采用深度模态对齐来实现对应的多模态语义特征的对齐,通过联合单模态和多模态令牌学习,引入冻结的模态共享变压器,使模型能够学习到每种模态的独立表示,并关注它们之间的跨模态关系。此外,在编码阶段引入块对齐性学习以对齐粗粒、细粒的层次特征,并引入鲁棒的判别前景挖掘机制以抑制每种模态中的背景特征。通过在 benchmark AVE、VGGSound 和 CREMA-D 数据集上进行的大量实验,该方法在性能上取得了显著的改进。
Jun, 2024
本文介绍了一种实现鲁棒的多模式人物表示以优化开放式音视频说话人验证的方法。通过探索多任务学习技术,我们提高了距离度量学习方法的性能,并展示了一个弱标签的辅助任务可以增加学习到的说话人表示的紧凑性。同时,我们将广义端到端损失(GE2E)扩展到多模态输入,并证明其在音视频领域可以达到竞争性的性能。最后,我们引入了一种非同步音视频采样的随机策略,该策略在训练时能改善泛化效果。我们的网络在说话人验证方面达到了最先进的水平,并在 VoxCeleb1-O/E/H 的三个官方试验列表中报告了 0.244%、0.252%、0.441% 的等错误率(EER),据我们所知,这是 VoxCeleb1-E 和 VoxCeleb1-H 的最佳已发表结果。
Sep, 2023
本文研究了多模式学习中可能存在的优化失衡问题,提出了一种新的梯度调节方法,通过动态监测不同输入模态的贡献来自适应地优化每个模态,以解决某些场景下存在的支配模态问题,并且在不同的多模式任务中能够获得显著的改进效果。
Mar, 2022
本文介绍了一个新的无约束视频中的音频视觉事件定位问题,使用 AVE 数据集进行研究,提出了使用双模态残差网络结合音频引导视觉注意力机制处理音频视觉相关性的方案,并针对跨模态定位提出跨模态距离学习网络。实验结果表明,联合建模听觉和视觉模型优于独立建模,学习到的注意力可以捕捉声音对象的语义,音频视觉融合的时序对齐很重要,所提出的 DMRN 在融合音频视觉特征方面非常有效,两个模态之间的强相关性使跨模态定位成为可能。
Mar, 2018
提出了用于处理单模式和多模式情感情况的多功能音视频学习框架,通过音视频共享层,残差连接和单模态重构任务实现有效的表示学习,在情感属性预测任务上达到了新的最先进性能。
May, 2023
通过较大比例的对比预训练模型作为模态教师的视听标签阐述 (VAOLOR),我们在视频的未对齐设置中识别音频和视觉事件,并取得最新的最新成果,在所有 LLP 指标上实现了显着的优势 (+5.4 F-score for Type @ AV)。
May, 2023