孪生视觉变压器是可扩展的音频视觉学习器

Mar, 2024

孪生视觉变压器是可扩展的音频视觉学习器

Siamese Vision Transformers are Scalable Audio-visual Learners

Yan-Bo Lin, Gedas Bertasius

TL;DR通过使用音频-视觉连体网络（AVSiam）进行高效可扩展的音频-视觉预训练，本研究采用了单个共享视觉变换器骨干，提高了参数效率，减少GPU内存占用，并允许扩展到更大的数据集和模型尺寸。与先前的音频-视觉方法不同，我们的方法能够稳定地处理音频、视觉和音频-视觉输入，并通过单个共享的ViT骨干在音频-视觉分类和检索方面实现具有竞争力甚至更好的结果。

Abstract

Traditional audio-visual methods rely on independent audio and visual backbones, which is costly and not scalable. In this work, we investigate using an audio-visual siamese network (AVSiam) for efficient and scalable audio-visual →

发现论文，激发创造

深度音视频学习综述

本篇论文综述了近期音视频学习发展的四个子领域：音视频分离和定位，音视频对应学习，音视频生成以及音视频表示学习，重点讨论其最先进的方法，剩余的挑战以及常用的数据集和性能评估。

Jan, 2020

VGGSound：大规模音频视觉数据集

利用计算机视觉技术收集大规模无噪声标签的音频-视觉数据集，用于训练和评估音频识别模型。使用图像分类算法，过滤环境噪声，创建 VGGSound 数据集，并研究了各种卷积神经网络架构和聚合方法，以建立新数据集的音频识别基线。

Apr, 2020

从音频-视觉空间对齐中学习表示

介绍了一个针对学习自我监督前置任务的音频视频表示方法，通过引入transformer架构和空间对齐技术，提高了网络的感知和学习效率，结果表明，该方法在诸如音频视觉对应、空间对齐、动作识别、视频语义分割等多项任务中表现出良好的性能。

Nov, 2020

Vision Transformers是参数高效的音视学习器

本文研究冻结的视觉transformers模型的能力与使用LAVISH适配器对其应用到视听任务的可行性，结果显示此方法获得了很好的效果。

Dec, 2022

音视频语义分割进一步探究

本文提出一个新的策略：Visual Post-production (VPO)，旨在构建经济实惠、相对公正的音频-视觉语义分割基准数据集，为此引入了像素级音频-视觉对比学习方法并验证了该策略的有效性，最终结果表明 VPO 策略构建的数据集能够比 SOTA 模型获得更准确的音频-视觉语义分割。

Apr, 2023

音视类增量学习

通过引入双通道音频-视觉相似性约束（D-AVSC）和视觉注意聚焦（VAD）的音频-视觉类增量学习方法（AV-CIL），维持音频-视觉模态之间的实例感知和类感知语义相似性，保留先前学习的音频指导训练能力，从而克服了当前方法在不断增加的类增量步骤中保持语义相似性的挑战，实验证明AV-CIL在音频-视觉类增量学习中显著优于现有的类增量学习方法。

Aug, 2023

AV-SUPERB: 音频-视觉表示模型的多任务评估基准

音频-视觉表示学习，一种开发具有类似于人类感知的系统的方法，利用声音和视觉信息之间的相关性。然而，目前的模型往往专注于有限的任务集，并且对学习表示的泛化能力尚不清楚。因此，我们提出了AV-SUPERB基准，它在涵盖语音和音频处理中的5个音频-视觉任务的7个数据集上，能够对单模音频/视觉和双模融合表示进行通用评估。我们评估了5个最近的自监督模型，并表明这些模型都不能泛化到所有任务，强调了未来需要改进通用模型性能的研究的必要性。此外，我们表明通过中间任务微调和使用AudioSet进行音频事件分类可以改进表示。我们发布了我们的基准测试，提供了评估代码和模型提交平台，以鼓励进一步进行音频-视觉学习的研究。

Sep, 2023

视觉回声：简单统一变压器用于音视频生成

通过使用简单轻量级的生成型Transformer模型，本论文在图像到音频生成任务上取得了更好的性能，同时也可用于音频到图像生成和协同生成。

May, 2024

MA-AVT：用于参数高效音频-视觉变换器的模态对齐

该论文介绍了一种新的参数高效的视听变压器 MA-AVT，采用深度模态对齐来实现对应的多模态语义特征的对齐，通过联合单模态和多模态令牌学习，引入冻结的模态共享变压器，使模型能够学习到每种模态的独立表示，并关注它们之间的跨模态关系。此外，在编码阶段引入块对齐性学习以对齐粗粒、细粒的层次特征，并引入鲁棒的判别前景挖掘机制以抑制每种模态中的背景特征。通过在 benchmark AVE、VGGSound 和 CREMA-D 数据集上进行的大量实验，该方法在性能上取得了显著的改进。

Jun, 2024

从视觉到听觉及其他：一种统一的音视频表征与生成模型

本研究解决了音视频表征学习与生成建模之间的断裂，通过提出Vision to Audio and Beyond（VAB）框架，能够在潜在空间中实现音视频的表征学习和生成。VAB的关键在于利用预训练的音频分词器和图像编码器进行数据处理，并通过上下文学习实现高质量音频生成，显示出其在音视频检索和分类任务中的优越表现。

Sep, 2024