跨模态学习用于视听视频解析

Apr, 2021

Cross-Modal learning for Audio-Visual Video Parsing

Jatin Lamba, Abhishek, Jayaprakash Akula, Rishabh Dabral, Preethi Jyothi...

TL;DR本文介绍了一种新的音频 - 视觉视频解析（AVVP）任务的方法，该方法将音频和视觉模态中的事件分开，在时间上同时检测这些事件的开始和结束，并利用对抗性训练、全局上下文知觉关注和自监督预训练来获得跨模态的音频 - 视频表示，实验结果表明本文的方法在 AVVP 任务上比现有的 HAN 模型更好。

Abstract

In this paper, we present a novel approach to the audio-visual video parsing (avvp) task that demarcates events from a video separately for audio and visual modalities. The proposed parsing approach simultaneousl

avvp audio-visual video parsing cross-modal learning adversarial training global context aware attention

发现论文，激发创造

统一的多感知知觉：弱监督的音频 - 视觉视频解析

本文介绍了音频 - 视觉视频解析的问题，并提出了一个新的混合注意力网络方法和一种自适应 MMIL 池化方法来解决多模态多实例学习问题，以及利用标签平滑技术来减轻模态偏置和嘈杂标签问题。实验结果表明，即使只有视频级弱标签，也可以实现具有挑战性的音频 - 视觉视频解析。

Jul, 2020

从语言角度重新审视基于弱监督的音视频分析

本文提出通过语言描述每个视频段的事件出现情况并计算语言提示与段落的相似度来识别事件并调整不可靠段落标签的方法，优于现有同类方法。

Jun, 2023

CoLeaF: 一个对比 - 协同学习框架，用于弱监督音频 - 视觉视频解析

通过使用 CoLeaF，一种新的学习框架，提高了弱监督音频 - 视觉视频解析的性能，通过在嵌入空间中优化跨模态上下文的集成，对于可听 - 可见事件，网络能够明确学习将跨模态信息结合起来，而对于不一致的事件进行过滤。

May, 2024

通用教师遇见弱监督音视频事件解析器

通过较大比例的对比预训练模型作为模态教师的视听标签阐述 (VAOLOR)，我们在视频的未对齐设置中识别音频和视觉事件，并取得最新的最新成果，在所有 LLP 指标上实现了显着的优势 (+5.4 F-score for Type @ AV)。

May, 2023

CM-PIE：跨模态感知的交互增强音频视觉视频解析

本文介绍了一种基于片段注意力模块的交互增强型跨模态知觉方法（CM-PIE），该方法通过学习细粒度特征和增强跨模态交互以共同优化音频和视觉信号的语义表示，提高了在 Look, Listen, and Parse 数据集上的解析性能。

Oct, 2023

通过分段伪标签提升弱监督音视频解析

通过利用先前从开放世界学到的知识，我们提出了一种新的伪标签生成策略，可以将标签明确分配给每个视频片段，进一步使用新的损失函数来利用这些伪标签，并采用标签去噪策略来提升视觉伪标签。我们在 LLP 数据集上进行了广泛实验，证明了每个提议设计的有效性，并在所有类型的事件解析上取得了最先进的视频解析性能，且在相关的弱监督音频 - 视觉事件定位任务上验证了我们方法的优势和泛化性。

Jun, 2024

重新思考弱监督的音频 - 视觉视频解析中的跨模态融合

通过引入混合注意力网络、信使引导中融合变换以及跨音频预测一致性等方法，本研究提出了一种新的弱监督音频 - 视觉视频解析框架，以解决多模态融合中的问题并改进单模态事件检测的性能。实验表明，我们的框架相比现有的最先进方法，表现更加优越。

Nov, 2023

无约束视频中的视听事件定位

本文介绍了一个新的无约束视频中的音频视觉事件定位问题，使用 AVE 数据集进行研究，提出了使用双模态残差网络结合音频引导视觉注意力机制处理音频视觉相关性的方案，并针对跨模态定位提出跨模态距离学习网络。实验结果表明，联合建模听觉和视觉模型优于独立建模，学习到的注意力可以捕捉声音对象的语义，音频视觉融合的时序对齐很重要，所提出的 DMRN 在融合音频视觉特征方面非常有效，两个模态之间的强相关性使跨模态定位成为可能。

Mar, 2018

音视频 LLM 用于视频理解

该论文介绍了一种名为 Audio-Visual LLM 的多模态大型语言模型，它通过同时接收视觉和听觉输入来进行综合视频理解。该模型的关键设计是模态增强训练，它通过集成专门设计的模态特定标记来有选择地激活适当的视觉和 / 或听觉编码器。此机制对于实现端到端的多模态视频数据联合训练至关重要。实验证明，Audio-Visual LLM 在各种视频理解任务中取得了令人印象深刻的零样本结果。

Dec, 2023

MM-Pyramid: 多模塔形注意力网络用于音视频事件定位和视频解析

提出了一种名为 MM-Pyramid 的多模式金字塔式注意力网络，该网络使用注意力特征金字塔模块和语义融合模块，以实现视频中事件的识别和定位。

Nov, 2021