音频生成及其隐式对齐

Jul, 2024

Video-to-Audio Generation with Hidden Alignment

Manjie Xu, Chenxing Li, Yong Ren, Rilin Chen, Yu Gu...

TL;DR通过探索视觉编码器、辅助嵌入、数据增强技术等方面，该研究旨在提供对视频到音频生成范式的洞察。通过全面的评估流程，并强调生成质量和视频音频同步对齐，论文展示了其模型在视频到音频生成方面的最新能力。此外，研究还提供了不同数据增强方法对增强生成框架整体性能的影响的重要见解，为从语义和时间角度生成同步音频的挑战展示了可能性。希望这些洞察能为开发更加逼真准确的音视频生成模型奠定基础。

Abstract

Generating semantically and temporally aligned audio content in accordance with video input has become a focal point for researchers, particularly following the remarkable breakthrough in text-to-video generation. In this work, we aim to offer insights into the video-to-audio generation

发现论文，激发创造

DiffAVA: 带视觉对齐的个性化文本到音频生成

该文章提出了一种基于视觉对齐的新型个性化文本转语音生成方法——DiffAVA，它使用多头注意力变换器聚合视觉特征的时间信息，并利用双模残差网络将时间视觉表示与文本嵌入进行融合，然后采用对比学习目标来匹配视觉对齐的文本嵌入和音频特征。研究结果表明，DiffAVA在视觉对齐的文本转音频生成方面具有竞争力的表现。

May, 2023

对齐，自适应和注入：音频引导的统一图像生成

本文提出了一个统一框架——Align, Adapt, and Inject (AAI)，用于基于声音进行图像生成、编辑和风格化。其方法将输入的声音转换成一个声音令牌，并利用现有强大的扩散式T2I模型，从而实现了方便而经济的声音引导的图像生成、编辑和风格化。实验表明，AAI方法优于其他最先进的文本和声音引导方法。

Jun, 2023

通过文本到视频模型的调整实现多样和一致的音视频生成

生成多样化和逼真的视频，根据语义类别广泛的自然音频样本进行引导。采用了基于轻量级适配器网络的方法，将音频基础表示映射到文本-视频生成模型所期望的输入表示，实现了对文本、音频以及文本和音频的生成视频。在三个数据集上验证了该方法，展示了生成的音频视频样本的显著语义多样性，并提出了一种新的评估度量（AV-Align）以评估生成视频与输入音频样本的对齐性。与最新的先进方法相比，我们的方法生成的视频在内容和时间轴上都与输入音频更好地对齐，并且呈现更高的视觉质量和多样性。

Sep, 2023

视听结合：基于扩散潜在对齐器的开放领域视听生成

本研究提出了一个基于优化的跨视觉-音频和联合视觉-音频生成框架，通过与预训练的ImageBind模型共享潜在表示空间，实现了优越的联合视频-音频生成、视觉导向音频生成和音频导向视觉生成任务的性能。

Feb, 2024

视频同步的文本到语音生成

近期，研究人员在文本转语音生成方面的关注度不断增加，本研究提出了一个名为T2AV-Bench的创新基准和一个简单而有效的视频对齐文本到音频生成模型T2AV，通过整合视觉对齐的文本嵌入到生成模型中，通过时间多头注意力转换器从视频数据中提取和理解时间细微差异，并通过Audio-Visual ControlNet将时态视觉表示与文本嵌入精确地融合，进一步增强集成性，以确保视觉对齐和时间一致性。经过对AudioCaps和T2AV-Bench的广泛评估，T2AV在视觉对齐和时间一致性上设立了新的标准。

Mar, 2024

从文本和视频中生成声音

提出了一种名为ReWaS的新型视频和文本生成声音的方法，通过视频作为文本到音频生成模型的条件控制，从视频中估计音频的结构信息（即能量），同时从用户提示中接收关键内容线索。通过分离音频的生成组件，提供了一个更灵活的系统，允许用户根据其偏好自由调整能量、周围环境和主音源。实验结果证明了该方法在质量、可控性和训练效率方面的优越性。

Jul, 2024

增强同步性的遮蔽式生成式视频-音频变换器

提出了一种名为MaskVAT的V2A生成模型，通过将高质量的全频段音频编解码器与序列到序列的掩码生成模型相互连接，实现了高音质、语义匹配和时间同步性的综合模拟。

Jul, 2024

VMAS：通过语义对齐在网络音乐视频中生成视频音乐

本研究解决了从视频生成背景音乐的方法缺乏多样性和符号音乐注释不足的问题。提出了一种新颖的生成视频音乐Transformer及语义对齐方案，使得生成的音乐能够与视频内容高度一致。该方法在2.2M的视频音乐样本数据集上表现优越，具有广泛的应用潜力。

Sep, 2024

一个简单而强大的声音视频生成基线：音频和视频扩散模型的有效适应以进行联合生成

本研究针对声音视频生成领域中的现有方法不足进行了探讨。我们提出了一种集成音频和视频扩散模型的新方法，通过引入时间步调整和位置编码的跨模态条件设计（CMC-PE）机制，显著提升了音视频配对的对齐效果。实验结果表明，该方法在生成质量上优于现有技术，具有良好的应用潜力。

Sep, 2024

从视觉到听觉及其他：一种统一的音视频表征与生成模型

本研究解决了音视频表征学习与生成建模之间的断裂，通过提出Vision to Audio and Beyond（VAB）框架，能够在潜在空间中实现音视频的表征学习和生成。VAB的关键在于利用预训练的音频分词器和图像编码器进行数据处理，并通过上下文学习实现高质量音频生成，显示出其在音视频检索和分类任务中的优越表现。

Sep, 2024