利用弱标签数据进行大规模音频视觉学习

IJCAIMay, 2020

利用弱标签数据进行大规模音频视觉学习

Large Scale Audiovisual Learning of Sounds with Weakly Labeled Data

Haytham M. Fayek, Anurag Kumar

TL;DR本文提出了一种音频视觉融合模型，该模型利用注意机制动态地结合单独的音频和视觉模型的输出来识别声音，实验证明该模型在音频场景分析和机器感知上比单模和多模融合模型具有更好的效果。

Abstract

Recognizing sounds is a key aspect of computational audio scene analysis and machine perception. In this paper, we advocate that sound recognition is inherently a multi-modal audiovisual task in that it is easier

sound recognition audiovisual fusion model multi-modal attention mechanism large scale sound events dataset

发现论文，激发创造

统一的多感知知觉：弱监督的音频 - 视觉视频解析

本文介绍了音频 - 视觉视频解析的问题，并提出了一个新的混合注意力网络方法和一种自适应 MMIL 池化方法来解决多模态多实例学习问题，以及利用标签平滑技术来减轻模态偏置和嘈杂标签问题。实验结果表明，即使只有视频级弱标签，也可以实现具有挑战性的音频 - 视觉视频解析。

Jul, 2020

观看、听取与叙述：多模态弱监督密集事件字幕生成

本文研究了多模态学习中的音频 - 视觉相关性，并使用该方法在视频中探讨弱监督下的活动密集事件字幕问题，通过实验证明了提出的多模态方法优于单模态方法，同时验证了特定功能表示和体系结构设计的选择。

Sep, 2019

使用声学图像的音视频模型蒸馏

本研究旨在研究如何从视觉数据和新型的音频数据模式 —— 声学图像中学习丰富和强大的音频分类特征表示，通过利用新的多模态标记行动识别数据集，并针对性地训练音频深度学习模型，从视觉和声学图像方面实现知识蒸馏，以获得比单麦克风声音数据训练模型更强大和更具有一般化能力的特征表示。

Apr, 2019

无约束视频中的视听事件定位

本文介绍了一个新的无约束视频中的音频视觉事件定位问题，使用 AVE 数据集进行研究，提出了使用双模态残差网络结合音频引导视觉注意力机制处理音频视觉相关性的方案，并针对跨模态定位提出跨模态距离学习网络。实验结果表明，联合建模听觉和视觉模型优于独立建模，学习到的注意力可以捕捉声音对象的语义，音频视觉融合的时序对齐很重要，所提出的 DMRN 在融合音频视觉特征方面非常有效，两个模态之间的强相关性使跨模态定位成为可能。

Mar, 2018

深度多模态学习用于音视频语音识别

本文介绍深度多模态学习的方法，用于合并语音和视觉特征进行音视频自动语音识别。实验结果表明，使用深度网络的融合模型和双线性 softmax 层能够进一步降低电话错误率。

Jan, 2015

针对不同步视听事件的弱监督表征学习

本文提出了一种基于多模态学习的新型框架，可以从非同步的音频和视觉事件中学习，用于事件分类和定位。使用该方法可以取得弱标签音频事件视频大规模数据集的最先进结果。

Apr, 2018

自监督多感官特征的音频 - 视觉场景分析

本文提出了一种融合多感官表征的方法，通过神经网络自动预测视频帧和音频的时间对齐情况，实现声音定位、视听行为识别和音频源分离等三个应用。

Apr, 2018

通用教师遇见弱监督音视频事件解析器

通过较大比例的对比预训练模型作为模态教师的视听标签阐述 (VAOLOR)，我们在视频的未对齐设置中识别音频和视觉事件，并取得最新的最新成果，在所有 LLP 指标上实现了显着的优势 (+5.4 F-score for Type @ AV)。

May, 2023

一种统一的音视频学习框架：局部化、分离与识别

该研究提出了一种名为 OneAVM 的联合学习框架，该框架可以用于音频 - 视频源定位、分离和识别任务，其中共享的音频 - 视频编码器和任务特定的解码器是通过三个目标进行训练，包括本地化的音频 - 视觉对应丢失、视觉源分离和选择和用于强化视觉特征分离和定位的像素空间混合。经过在多个数据集上的广泛实验，证明了 OneAVM 的有效性，并在音频 - 视觉源定位、分离和最近邻识别任务之间展现了强大的正向转移。

May, 2023

课程视听学习

本文提出了一种灵活的音视频模型，通过软聚类模块作为音频和视频内容检测器，并将音视频并发的普遍属性视为推断检测内容之间相关性的潜在监督，并提出一种新颖的课程学习策略，从简单到复杂的场景训练模型，以缓解音视频学习的困难。同时，本文的音视频模型还可提供有效的单模态表示和跨模态对齐性能，进一步将训练好的模型部署到实际音视频定位和分离任务中，并显示其定位模型明显优于现有方法，基于此，我们在音频分离方面的性能也表现出色，而不需要参考外部视觉监督。

Jan, 2020