从视觉到听觉及其他：一种统一的音视频表征与生成模型

Sep, 2024

从视觉到听觉及其他：一种统一的音视频表征与生成模型

From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation

Kun Su, Xiulong Liu, Eli Shlizerman

TL;DR本研究解决了音视频表征学习与生成建模之间的断裂，通过提出Vision to Audio and Beyond（VAB）框架，能够在潜在空间中实现音视频的表征学习和生成。VAB的关键在于利用预训练的音频分词器和图像编码器进行数据处理，并通过上下文学习实现高质量音频生成，显示出其在音视频检索和分类任务中的优越表现。

Abstract

Video encompasses both visual and auditory data, creating a perceptually rich experience where these two modalities complement each other. As such, videos are a valuable type of media for the investigation of the interplay between audio and visual elements. Previous studies of Audio-Visual

发现论文，激发创造

深度音视频学习综述

本篇论文综述了近期音视频学习发展的四个子领域：音视频分离和定位，音视频对应学习，音视频生成以及音视频表示学习，重点讨论其最先进的方法，剩余的挑战以及常用的数据集和性能评估。

Jan, 2020

Sound2Sight：从声音和上下文生成视觉动态

本研究提出了一种基于多模态深度变分模型的音频-视觉联合生成模型，通过学习音频及以前帧的联合嵌入，学习每一帧的随机先验知识，并生成未来视频及其动态信息。此外，还通过多模态鉴别器强化了生成框架的视频质量和一致性，实验表明该方法可以生成高质量和多样化的视频。

Jul, 2020

通过组合对比学习提炼视听知识

本文介绍了一种新的跨模态知识迁移方法，使用组合对比学习来学习复合嵌入，通过学习多模态知识来改善视频表示学习表现。在三个视频数据集上进行的实验表明，该方法显著优于现有的知识蒸馏方法。

Apr, 2021

音视频语境下的学习：一份综述、分析和新视角

介绍了视听感知、跨模态感知和协同感知在计算机视听学习中的重要性，综述了该领域的最新发展，并提出了关于场景理解的新视角和未来发展方向。

Aug, 2022

音频到视觉潜在对齐的声音转视觉场景生成

本文提出了一种通过声音生成场景图像的方法，采用了深度学习等技术，结合声音定位和跨模态信息对齐来提高图像生成质量，并在相关数据集上得到了较好结果。

Mar, 2023

揭示视听早期融合变压器的强大力量：通过遮蔽建模实现密集交互

本文介绍了使用掩模重建框架和基于注意力的融合模块来训练早期融合的音频-视觉编码器，以实现高效深度集成的音频-视觉模型。实验证明该方法在音频事件分类、视觉声音定位、音频分离和音频-视觉分割方面表现优越，极大地推动了早期融合架构的应用。

Dec, 2023

音视频LLM用于视频理解

该论文介绍了一种名为Audio-Visual LLM的多模态大型语言模型，它通过同时接收视觉和听觉输入来进行综合视频理解。该模型的关键设计是模态增强训练，它通过集成专门设计的模态特定标记来有选择地激活适当的视觉和/或听觉编码器。此机制对于实现端到端的多模态视频数据联合训练至关重要。实验证明，Audio-Visual LLM在各种视频理解任务中取得了令人印象深刻的零样本结果。

Dec, 2023

音频线索加强的音频视觉分割引导

提出了AVSAC方法，通过构建双向音频-视觉解码器并采用二向桥接设计，实现了音频线索的增强和音频与视觉模态之间的连续交互，从而缩小模态不平衡、促进整合音频-视觉表示的有效学习。此外，提出了音频-视觉帧同步策略，通过更好的同步音频组件与视觉特征，有助于更平衡的音频-视觉表示学习。大量实验证明，该方法在AVS性能方面取得了新的突破。

Feb, 2024

孪生视觉变压器是可扩展的音频视觉学习器

通过使用音频-视觉连体网络（AVSiam）进行高效可扩展的音频-视觉预训练，本研究采用了单个共享视觉变换器骨干，提高了参数效率，减少GPU内存占用，并允许扩展到更大的数据集和模型尺寸。与先前的音频-视觉方法不同，我们的方法能够稳定地处理音频、视觉和音频-视觉输入，并通过单个共享的ViT骨干在音频-视觉分类和检索方面实现具有竞争力甚至更好的结果。

Mar, 2024

音频生成及其隐式对齐

通过探索视觉编码器、辅助嵌入、数据增强技术等方面，该研究旨在提供对视频到音频生成范式的洞察。通过全面的评估流程，并强调生成质量和视频音频同步对齐，论文展示了其模型在视频到音频生成方面的最新能力。此外，研究还提供了不同数据增强方法对增强生成框架整体性能的影响的重要见解，为从语义和时间角度生成同步音频的挑战展示了可能性。希望这些洞察能为开发更加逼真准确的音视频生成模型奠定基础。

Jul, 2024