具有稳健遗忘机制的生命周期音视频屏蔽自编码器与局部对齐

Oct, 2023

具有稳健遗忘机制的生命周期音视频屏蔽自编码器与局部对齐

Lifelong Audio-video Masked Autoencoder with Forget-robust Localized Alignments

Jaewoo Lee, Jaehong Yoon, Wonjae Kim, Yunji Kim, Sung Ju Hwang

TL;DR我们提出了一种终身音视频遮罩自编码器，它能够在分布随时间不断变化的视频流中持续学习多模态表示。具体而言，我们提出了两个创新点来解决这个问题：（1）局部对齐：我们引入了一个小型可训练的多模态编码器，用于预测彼此相互对齐的音频和视频令牌。这使得模型只学习具有准确多模态关系的高度相关的音视频补丁。（2）忘却鲁棒多模态补丁选择：我们比较当前数据对之间每个音视频补丁的相对重要性，以减轻先前学习的音视频表示的意外漂移。因此，我们提出的方法 FLAVA 在一系列预训练任务上训练期间捕捉音频和视频模态之间的复杂关系，并减轻了已学习音视频相关性的遗忘。我们的实验证实了 FLAVA 在持续音视频表示学习场景下的几个基准数据集上优于现有的持续学习方法。

Abstract

We present a lifelong audio-video masked autoencoder that continually learns the multimodal representations from a video stream containing audio-video pairs, while its distribution continually shifts over time. S

lifelong audio-video masked autoencoder multimodal representations localized alignment forget-robust multimodal patch selection flava

发现论文，激发创造

扩散模型作为遮蔽音频 - 视频学习器

学习了音频和视觉信号的同步已经被利用来学习更丰富的音频 - 视觉表示，最新的研究结合了扩散模型与音频 - 视频预训练框架 MAViL，通过使用掩蔽编码和对比学习来实现音频谱图和视频帧的联合重构，并通过训练效率方法的结合降低了 32％的浮点预训练操作数量 (FLOPS) 和 18％的预训练时间，与 MAViL 相比，在下游音频分类任务上没有损害模型的性能。

Oct, 2023

AV-MaskEnhancer：通过音频 - 视觉蒙版自编码器增强视频表达

通过结合视听信息，我们提出了 AV-MaskEnhancer 方法来学习高质量的视频表示，解决了从低分辨率和模糊的原始视频中提取特征的挑战，并在 UCF101 数据集上的视频分类任务中取得了 98.8% 的 top-1 准确率和 99.9% 的 top-5 准确率，超越了现有工作并达到了最先进水平。

Sep, 2023

对比音视频掩码自编码器

本文提出了 CAV-MAE 模型，它将 Masked Auto-Encoder (MAE) 模型从单模态扩展到音频 - 视觉多模态，并结合自监督学习框架中的对比学习和蒙版数据建模两种方法，学习联合和协调的音频 - 视觉表示，并在 VGGSound 数据集中取得了新的 SOTA 准确性，达到了 65.9%。

Oct, 2022

FLAP：快速语言音频预训练

我们提出了快速语音 - 文本预训练（FLAP）的自监督方法，通过屏蔽、对比学习和重构来有效地学习对齐的音频和语言表示。FLAP 通过随机丢弃音频频谱标记，仅关注自我监督的剩余标记，以提高效率。通过互模态对比学习，FLAP 学习将配对的音频和文本表示对齐在共享的潜在空间中。值得注意的是，FLAP 通过屏蔽多个增强视图，并学习重构音频标记的屏蔽部分。此外，FLAP 利用大型语言模型（LLM）增强文本输入，以提高性能。这些方法导致更强大和信息丰富的音频 - 文本表示，使得 FLAP 在 AudioCaps（实现了 53.0% 的 R@1）和 Clotho（实现了 25.5% 的 R@1）的音频 - 文本检索任务中达到最先进的性能。

Nov, 2023

基于编码器的终身学习

该论文引入了一种新的终身学习方案，其使用自编码器以保留以前任务的信息并控制新环境下的功能调整，从而显著减少了任务遗忘率。

Apr, 2017

多模态自监督学习通用音频表示

通过使用多模态框架，在训练音频表征时利用视频信息和加入混合样本的数据增强，本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。

Apr, 2021

统一的视频 - 语言联合预训练与同步音频

我们提出了一种增强的视频语言预训练框架，使用同步音频，可以在统一的自监督转换器中学习三模态表示。我们的模型在仅使用 90 万条数据进行预训练的情况下，取得了相对于现有基准的改进结果，并通过定性可视化展示了其在学习有区分性的视觉文本表示方面的优越性。

May, 2024

Video-LLaMA: 一种面向视频理解的指令优化的音视频语言模型

Video-LLaMA 是一种多模态框架，通过将预训练的视觉和音频编码器与预训练的大型语言模型结合，实现对视频内容的理解，具有捕捉视觉场景中的时间变化和整合音频 - 视觉信号等优势，因此被视为具有潜力的音视频 AI 助手原型。

Jun, 2023

观看、倾听和描述：全局和局部对齐的跨模态关注力用于视频字幕生成

提出了一种新的分层对齐交叉模态注意力 (HACA) 框架来学习和选择性地融合不同模态的全局和本地时间动态，在视频字幕任务中，首次验证了深度音频特征的卓越性能，该模型显著优于先前最佳系统并在广泛使用的 MSR-VTT 数据集上实现了新的最新成果。

Apr, 2018

基于多模态变分自编码器的音频 - 视觉分割

通过提出的明确条件多模态变分自编码器（ECMVAE）来进行音频 - 视觉分割（AVS），从有效的表示学习的角度解决现有 AVS 方法中的问题，该方法的关键词包括明确条件多模态变分自编码器、音频 - 视觉分割、表示学习、交叉模态共享表示和音源分割。

Oct, 2023