孪生视觉变压器是可扩展的音频视觉学习器
本篇论文综述了近期音视频学习发展的四个子领域:音视频分离和定位,音视频对应学习,音视频生成以及音视频表示学习,重点讨论其最先进的方法,剩余的挑战以及常用的数据集和性能评估。
Jan, 2020
利用计算机视觉技术收集大规模无噪声标签的音频-视觉数据集,用于训练和评估音频识别模型。使用图像分类算法,过滤环境噪声,创建 VGGSound 数据集,并研究了各种卷积神经网络架构和聚合方法,以建立新数据集的音频识别基线。
Apr, 2020
介绍了一个针对学习自我监督前置任务的音频视频表示方法,通过引入transformer架构和空间对齐技术,提高了网络的感知和学习效率,结果表明,该方法在诸如音频视觉对应、空间对齐、动作识别、视频语义分割等多项任务中表现出良好的性能。
Nov, 2020
本文研究冻结的视觉transformers模型的能力与使用LAVISH适配器对其应用到视听任务的可行性,结果显示此方法获得了很好的效果。
Dec, 2022
本文提出一个新的策略:Visual Post-production (VPO),旨在构建经济实惠、相对公正的音频-视觉语义分割基准数据集,为此引入了像素级音频-视觉对比学习方法并验证了该策略的有效性,最终结果表明 VPO 策略构建的数据集能够比 SOTA 模型获得更准确的音频-视觉语义分割。
Apr, 2023
通过引入双通道音频-视觉相似性约束(D-AVSC)和视觉注意聚焦(VAD)的音频-视觉类增量学习方法(AV-CIL),维持音频-视觉模态之间的实例感知和类感知语义相似性,保留先前学习的音频指导训练能力,从而克服了当前方法在不断增加的类增量步骤中保持语义相似性的挑战,实验证明AV-CIL在音频-视觉类增量学习中显著优于现有的类增量学习方法。
Aug, 2023
音频-视觉表示学习,一种开发具有类似于人类感知的系统的方法,利用声音和视觉信息之间的相关性。然而,目前的模型往往专注于有限的任务集,并且对学习表示的泛化能力尚不清楚。因此,我们提出了AV-SUPERB基准,它在涵盖语音和音频处理中的5个音频-视觉任务的7个数据集上,能够对单模音频/视觉和双模融合表示进行通用评估。我们评估了5个最近的自监督模型,并表明这些模型都不能泛化到所有任务,强调了未来需要改进通用模型性能的研究的必要性。此外,我们表明通过中间任务微调和使用AudioSet进行音频事件分类可以改进表示。我们发布了我们的基准测试,提供了评估代码和模型提交平台,以鼓励进一步进行音频-视觉学习的研究。
Sep, 2023
该论文介绍了一种新的参数高效的视听变压器 MA-AVT,采用深度模态对齐来实现对应的多模态语义特征的对齐,通过联合单模态和多模态令牌学习,引入冻结的模态共享变压器,使模型能够学习到每种模态的独立表示,并关注它们之间的跨模态关系。此外,在编码阶段引入块对齐性学习以对齐粗粒、细粒的层次特征,并引入鲁棒的判别前景挖掘机制以抑制每种模态中的背景特征。通过在 benchmark AVE、VGGSound 和 CREMA-D 数据集上进行的大量实验,该方法在性能上取得了显著的改进。
Jun, 2024
本研究解决了音视频表征学习与生成建模之间的断裂,通过提出Vision to Audio and Beyond(VAB)框架,能够在潜在空间中实现音视频的表征学习和生成。VAB的关键在于利用预训练的音频分词器和图像编码器进行数据处理,并通过上下文学习实现高质量音频生成,显示出其在音视频检索和分类任务中的优越表现。
Sep, 2024