通过文本到视频模型的调整实现多样和一致的音视频生成

Sep, 2023

通过文本到视频模型的调整实现多样和一致的音视频生成

Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation

Guy Yariv, Itai Gat, Sagie Benaim, Lior Wolf, Idan Schwartz...

TL;DR生成多样化和逼真的视频，根据语义类别广泛的自然音频样本进行引导。采用了基于轻量级适配器网络的方法，将音频基础表示映射到文本 - 视频生成模型所期望的输入表示，实现了对文本、音频以及文本和音频的生成视频。在三个数据集上验证了该方法，展示了生成的音频视频样本的显著语义多样性，并提出了一种新的评估度量（AV-Align）以评估生成视频与输入音频样本的对齐性。与最新的先进方法相比，我们的方法生成的视频在内容和时间轴上都与输入音频更好地对齐，并且呈现更高的视觉质量和多样性。

Abstract

We consider the task of generating diverse and realistic videos guided by natural audio samples from a wide variety of semantic classes. For this task, the videos are required to be aligned both globally and temporally with the input audio: globally, the input audio is semantically associated with the entire output video, and temporally, each segment of the

video generation audio-based representation text conditioning semantic diversity av-align

发现论文，激发创造

视频同步的文本到语音生成

近期，研究人员在文本转语音生成方面的关注度不断增加，本研究提出了一个名为 T2AV-Bench 的创新基准和一个简单而有效的视频对齐文本到音频生成模型 T2AV，通过整合视觉对齐的文本嵌入到生成模型中，通过时间多头注意力转换器从视频数据中提取和理解时间细微差异，并通过 Audio-Visual ControlNet 将时态视觉表示与文本嵌入精确地融合，进一步增强集成性，以确保视觉对齐和时间一致性。经过对 AudioCaps 和 T2AV-Bench 的广泛评估，T2AV 在视觉对齐和时间一致性上设立了新的标准。

Mar, 2024

DiffAVA: 带视觉对齐的个性化文本到音频生成

该文章提出了一种基于视觉对齐的新型个性化文本转语音生成方法 ——DiffAVA，它使用多头注意力变换器聚合视觉特征的时间信息，并利用双模残差网络将时间视觉表示与文本嵌入进行融合，然后采用对比学习目标来匹配视觉对齐的文本嵌入和音频特征。研究结果表明，DiffAVA 在视觉对齐的文本转音频生成方面具有竞争力的表现。

May, 2023

AADiff: 音频对齐视频生成与文本到图像扩散

本文介绍了一种新的 T2V 框架，通过引入音频信号来控制时间动态，从而使传统的 T2I 扩散生成可以与音频对齐的视频。我们提出了基于音频的区域编辑和信号平滑方法，以在视频综合的时间灵活性和一致性之间取得良好平衡，并通过实验验证了方法的有效性，并提出了实际应用。

May, 2023

利用文本条件特征对齐进行音频增强的文本到视频检索

通过引入 TEFAL 方法，利用跨模态注意力机制实现了文本查询条件下的音频和视频表示，从而提高了文本到视频检索任务的性能。

Jul, 2023

对齐，自适应和注入：音频引导的统一图像生成

本文提出了一个统一框架 ——Align, Adapt, and Inject (AAI)，用于基于声音进行图像生成、编辑和风格化。其方法将输入的声音转换成一个声音令牌，并利用现有强大的扩散式 T2I 模型，从而实现了方便而经济的声音引导的图像生成、编辑和风格化。实验表明，AAI 方法优于其他最先进的文本和声音引导方法。

Jun, 2023

TAVGBench：文本转音频 - 视频生成性能基准测试

提出了一个用于生成文字描述音频视频的基准测试集（TAVGBench），包含超过 1.7 百万个剪辑，总时长达到 11.8 千小时。通过自动注释流程，确保每个音频视频都具有音频和视频内容的详细描述。引入了 Audio-Visual Harmoni 分数（AVHScore），用于定量衡量生成音频和视频之间的对齐程度。此外，还提出了名为 TAVDiffusion 的 TAVG 基线模型，使用双流潜在扩散模型提供深入研究该领域的基础起点。通过在 TAVGBench 上进行广泛实验和评估，展示了我们所提出模型在传统指标和我们提出的指标下的有效性。

Apr, 2024

视听结合：基于扩散潜在对齐器的开放领域视听生成

本研究提出了一个基于优化的跨视觉 - 音频和联合视觉 - 音频生成框架，通过与预训练的 ImageBind 模型共享潜在表示空间，实现了优越的联合视频 - 音频生成、视觉导向音频生成和音频导向视觉生成任务的性能。

Feb, 2024

Music2Video：音频和文本融合的自动生成音乐视频

利用多模态特征空间中的文本和音频嵌入指导生成模型的生成图像，进一步实现音乐视频创作，我们提出的方法需要对视频进行自动分段，同时保持时间上的一致性，与以前的方法不同，我们的方法融合了文本和音频两个模态，展示了良好的应用效果

Jan, 2022

音频到视觉潜在对齐的声音转视觉场景生成

本文提出了一种通过声音生成场景图像的方法，采用了深度学习等技术，结合声音定位和跨模态信息对齐来提高图像生成质量，并在相关数据集上得到了较好结果。

Mar, 2023

视频文字弱监督对齐

本文提出了一种方法来自动对齐视频和文本，并使用向量特征将其视为时间分配问题，最终得出整数解决方案，这在对齐视频与符号标签方面取得了显着的改进并在具有相关文本说明的挑战性数据集上进行了评估。

May, 2015