增强同步性的遮蔽式生成式视频-音频变换器

Jul, 2024

增强同步性的遮蔽式生成式视频-音频变换器

Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity

Santiago Pascual, Chunghsin Yeh, Ioannis Tsiamas, Joan Serrà

TL;DR提出了一种名为MaskVAT的V2A生成模型，通过将高质量的全频段音频编解码器与序列到序列的掩码生成模型相互连接，实现了高音质、语义匹配和时间同步性的综合模拟。

Abstract

Video-to-audio (V2A) generation leverages visual-only video features to render plausible sounds that match the scene. Importantly, the generated sound onsets should match the visual actions that are aligned with them, otherwise unnatural synchronization artifacts arise. Recent works ha

发现论文，激发创造

FoleyGAN：基于视觉引导的生成对抗网络同步静默视频音效生成

本研究提出了一种基于深度学习的视听生成模型，通过使用时间上的视觉信息来引导生成模型输出音频，以适应视听模态之间的同步性，该模型能够生成逼真的视听同步音轨，并且在人员调查和统计实验中的表现优于其他基线模型和已有的视听数据集。

Jul, 2021

野外音视频同步

本研究提出基于transformer的架构和度量标准用于评估各种类别下的音频 - 视频同步，并使用新的VGG-Sound Sync数据集测试。结果表明，我们的模型优于先前的最先进技术。

Dec, 2021

通过文本到视频模型的调整实现多样和一致的音视频生成

生成多样化和逼真的视频，根据语义类别广泛的自然音频样本进行引导。采用了基于轻量级适配器网络的方法，将音频基础表示映射到文本-视频生成模型所期望的输入表示，实现了对文本、音频以及文本和音频的生成视频。在三个数据集上验证了该方法，展示了生成的音频视频样本的显著语义多样性，并提出了一种新的评估度量（AV-Align）以评估生成视频与输入音频样本的对齐性。与最新的先进方法相比，我们的方法生成的视频在内容和时间轴上都与输入音频更好地对齐，并且呈现更高的视觉质量和多样性。

Sep, 2023

视听结合：基于扩散潜在对齐器的开放领域视听生成

本研究提出了一个基于优化的跨视觉-音频和联合视觉-音频生成框架，通过与预训练的ImageBind模型共享潜在表示空间，实现了优越的联合视频-音频生成、视觉导向音频生成和音频导向视觉生成任务的性能。

Feb, 2024

音频同步视觉动画

当前的视觉生成方法可以通过文本生成高质量的视频，但有效地控制物体动态仍然是一项挑战。本研究探讨了音频作为生成时间同步图像动画的线索。我们引入了音频同步视觉动画（ASVA），这是一项通过多类别的音频片段在时间上引导静态图像展示运动动态的任务。为此，我们提出了一个以VGGSound为基础的数据集AVSync15，其中的视频展示了15个类别中音频和视觉事件同步。我们还提出了一种扩散模型AVSyncD，能够通过音频生成动态动画。广泛的评估验证了AVSync15作为一个可靠的同步生成基准，并展示了我们模型的优越性能。我们进一步探索了AVSyncDs在各种音频同步生成任务中的潜力，从没有基础图像的生成完整视频到用各种声音控制物体运动。我们希望我们建立的基准能为可控的视觉生成开辟新的道路。更多视频请访问项目网页链接。

Mar, 2024

视觉回声：简单统一变压器用于音视频生成

通过使用简单轻量级的生成型Transformer模型，本论文在图像到音频生成任务上取得了更好的性能，同时也可用于音频到图像生成和协同生成。

May, 2024

Frieren: 用修正流匹配的方法高效生成视频到音频

基于修正的流匹配，我们提出了Frieren——一个视频到音频（V2A）生成模型，通过回归从噪声到频谱图的条件传输向量场来合成与内容匹配的音频，以高品质、高效率和视听时序同步性建立V2A模型依然具有挑战性。通过利用基于前馈变换器的非自回归向量场估计器和强时序对齐的通道级跨模态特征融合机制，我们的模型能够高度与输入视频同步生成音频，并通过回流和引导向量场的一步蒸馏，甚至在几个或仅一个采样步骤中产生不错的音频效果。实验结果表明Frieren在VGGSound上以97.22%的对齐准确率和相较于强基线扩散模型的6.2%改进的Inception分数，达到了最先进的生成质量和时序对齐性能。

Jun, 2024

从文本和视频中生成声音

提出了一种名为ReWaS的新型视频和文本生成声音的方法，通过视频作为文本到音频生成模型的条件控制，从视频中估计音频的结构信息（即能量），同时从用户提示中接收关键内容线索。通过分离音频的生成组件，提供了一个更灵活的系统，允许用户根据其偏好自由调整能量、周围环境和主音源。实验结果证明了该方法在质量、可控性和训练效率方面的优越性。

Jul, 2024

音频生成及其隐式对齐

通过探索视觉编码器、辅助嵌入、数据增强技术等方面，该研究旨在提供对视频到音频生成范式的洞察。通过全面的评估流程，并强调生成质量和视频音频同步对齐，论文展示了其模型在视频到音频生成方面的最新能力。此外，研究还提供了不同数据增强方法对增强生成框架整体性能的影响的重要见解，为从语义和时间角度生成同步音频的挑战展示了可能性。希望这些洞察能为开发更加逼真准确的音视频生成模型奠定基础。

Jul, 2024

从视觉到听觉及其他：一种统一的音视频表征与生成模型

本研究解决了音视频表征学习与生成建模之间的断裂，通过提出Vision to Audio and Beyond（VAB）框架，能够在潜在空间中实现音视频的表征学习和生成。VAB的关键在于利用预训练的音频分词器和图像编码器进行数据处理，并通过上下文学习实现高质量音频生成，显示出其在音视频检索和分类任务中的优越表现。

Sep, 2024