本文介绍了音频 - 视觉视频解析的问题,并提出了一个新的混合注意力网络方法和一种自适应 MMIL 池化方法来解决多模态多实例学习问题,以及利用标签平滑技术来减轻模态偏置和嘈杂标签问题。实验结果表明,即使只有视频级弱标签,也可以实现具有挑战性的音频 - 视觉视频解析。
Jul, 2020
本文研究了多模态学习中的音频 - 视觉相关性,并使用该方法在视频中探讨弱监督下的活动密集事件字幕问题,通过实验证明了提出的多模态方法优于单模态方法,同时验证了特定功能表示和体系结构设计的选择。
Sep, 2019
本研究旨在研究如何从视觉数据和新型的音频数据模式 —— 声学图像中学习丰富和强大的音频分类特征表示,通过利用新的多模态标记行动识别数据集,并针对性地训练音频深度学习模型,从视觉和声学图像方面实现知识蒸馏,以获得比单麦克风声音数据训练模型更强大和更具有一般化能力的特征表示。
Apr, 2019
本文介绍了一个新的无约束视频中的音频视觉事件定位问题,使用 AVE 数据集进行研究,提出了使用双模态残差网络结合音频引导视觉注意力机制处理音频视觉相关性的方案,并针对跨模态定位提出跨模态距离学习网络。实验结果表明,联合建模听觉和视觉模型优于独立建模,学习到的注意力可以捕捉声音对象的语义,音频视觉融合的时序对齐很重要,所提出的 DMRN 在融合音频视觉特征方面非常有效,两个模态之间的强相关性使跨模态定位成为可能。
Mar, 2018
本文介绍深度多模态学习的方法,用于合并语音和视觉特征进行音视频自动语音识别。实验结果表明,使用深度网络的融合模型和双线性 softmax 层能够进一步降低电话错误率。
Jan, 2015
本文提出了一种基于多模态学习的新型框架,可以从非同步的音频和视觉事件中学习,用于事件分类和定位。使用该方法可以取得弱标签音频事件视频大规模数据集的最先进结果。
Apr, 2018
本文提出了一种融合多感官表征的方法,通过神经网络自动预测视频帧和音频的时间对齐情况,实现声音定位、视听行为识别和音频源分离等三个应用。
通过较大比例的对比预训练模型作为模态教师的视听标签阐述 (VAOLOR),我们在视频的未对齐设置中识别音频和视觉事件,并取得最新的最新成果,在所有 LLP 指标上实现了显着的优势 (+5.4 F-score for Type @ AV)。
May, 2023
该研究提出了一种名为 OneAVM 的联合学习框架,该框架可以用于音频 - 视频源定位、分离和识别任务,其中共享的音频 - 视频编码器和任务特定的解码器是通过三个目标进行训练,包括本地化的音频 - 视觉对应丢失、视觉源分离和选择和用于强化视觉特征分离和定位的像素空间混合。经过在多个数据集上的广泛实验,证明了 OneAVM 的有效性,并在音频 - 视觉源定位、分离和最近邻识别任务之间展现了强大的正向转移。
本文提出了一种灵活的音视频模型,通过软聚类模块作为音频和视频内容检测器,并将音视频并发的普遍属性视为推断检测内容之间相关性的潜在监督,并提出一种新颖的课程学习策略,从简单到复杂的场景训练模型,以缓解音视频学习的困难。同时,本文的音视频模型还可提供有效的单模态表示和跨模态对齐性能,进一步将训练好的模型部署到实际音视频定位和分离任务中,并显示其定位模型明显优于现有方法,基于此,我们在音频分离方面的性能也表现出色,而不需要参考外部视觉监督。
Jan, 2020