声音的力量：稳定扩散下的音频反应视频生成

ICCVSep, 2023

声音的力量：稳定扩散下的音频反应视频生成

The Power of Sound (TPoS): Audio Reactive Video Generation with Stable Diffusion

Yujin Jeong, Wonjeong Ryoo, Seunghyun Lee, Dabin Seo, Wonmin Byeon...

TL;DR通过使用包含变化的时间语义和大小的音频输入的 The Power of Sound (TPoS) 模型结合文本语义信息和经过预训练的音频编码器的顺序音频嵌入，TPoS 方法能够生成对音频有反应的视频内容，并在各个任务中展示了其有效性，与当前音频到视频生成领域的最新技术进行了比较。

Abstract

In recent years, video generation has become a prominent generative tool and has drawn significant attention. However, there is little consideration in audio-to-video generation, though audio contains unique qual

video generation audio-to-video generation the power of sound (tpos) model temporal semantics magnitude

发现论文，激发创造

AADiff: 音频对齐视频生成与文本到图像扩散

本文介绍了一种新的 T2V 框架，通过引入音频信号来控制时间动态，从而使传统的 T2I 扩散生成可以与音频对齐的视频。我们提出了基于音频的区域编辑和信号平滑方法，以在视频综合的时间灵活性和一致性之间取得良好平衡，并通过实验验证了方法的有效性，并提出了实际应用。

May, 2023

Soundini: 用声音引导的扩散技术进行自然视频编辑

本研究提出了一种使用声音引导视觉效果的方法，通过在音频视觉潜在空间中使用音频潜在表示来引导去噪扩散概率模型，利用基于光流的指导生成时间一致的视频帧，生成更具有现实主义的视觉效果。

Apr, 2023

声音引导下的语义视频生成

本文提出了一种利用多模态（声音 - 图像 - 文本）嵌入空间生成逼真视频的框架，通过将声音和 StyleGAN 潜空间相结合生成一个语义上和声音一致的视频，并且在视频质量和编辑方面超过了现有的最先进方法。

Apr, 2022

音频同步视觉动画

当前的视觉生成方法可以通过文本生成高质量的视频，但有效地控制物体动态仍然是一项挑战。本研究探讨了音频作为生成时间同步图像动画的线索。我们引入了音频同步视觉动画（ASVA），这是一项通过多类别的音频片段在时间上引导静态图像展示运动动态的任务。为此，我们提出了一个以 VGGSound 为基础的数据集 AVSync15，其中的视频展示了 15 个类别中音频和视觉事件同步。我们还提出了一种扩散模型 AVSyncD，能够通过音频生成动态动画。广泛的评估验证了 AVSync15 作为一个可靠的同步生成基准，并展示了我们模型的优越性能。我们进一步探索了 AVSyncDs 在各种音频同步生成任务中的潜力，从没有基础图像的生成完整视频到用各种声音控制物体运动。我们希望我们建立的基准能为可控的视觉生成开辟新的道路。更多视频请访问项目网页链接。

Mar, 2024

视频同步的文本到语音生成

近期，研究人员在文本转语音生成方面的关注度不断增加，本研究提出了一个名为 T2AV-Bench 的创新基准和一个简单而有效的视频对齐文本到音频生成模型 T2AV，通过整合视觉对齐的文本嵌入到生成模型中，通过时间多头注意力转换器从视频数据中提取和理解时间细微差异，并通过 Audio-Visual ControlNet 将时态视觉表示与文本嵌入精确地融合，进一步增强集成性，以确保视觉对齐和时间一致性。经过对 AudioCaps 和 T2AV-Bench 的广泛评估，T2AV 在视觉对齐和时间一致性上设立了新的标准。

Mar, 2024

基于评分的生成模型的音视频语音增强

本文介绍了一种利用基于分数的生成模型，即扩散模型，以视觉信息为条件的音频视觉语音增强系统。通过利用在口形识别上进行了微调的自我监督学习模型获得的音频视觉嵌入，将其变换器的编码器的分层特征聚合、时序对齐并合并到噪声条件分数网络中。实验评估表明，所提出的音频视觉语音增强系统在语音质量和减少生成物品的方面具有改进效果，并且减少了发音困惑等方面。这得到了下游的自动语音识别模型的单词错误率的支持，其中尤其在输入信噪比低的情况下，该模型的单词错误率明显降低。

Jun, 2023

视觉回声：简单统一变压器用于音视频生成

通过使用简单轻量级的生成型 Transformer 模型，本论文在图像到音频生成任务上取得了更好的性能，同时也可用于音频到图像生成和协同生成。

May, 2024

利用生成对抗网络进行视频驱动的语音重建

本文提出了一种基于生成式对抗网络（GANs）的、直接从无声视频中合成自然语音的端到端模型，能够根据视频内容生成与其同步的语音，并在 GRID 数据集上进行了性能评估，实现了从视频到裸音频的首次直接映射，并能够识别新演讲者的语音，并在音质和准确性方面对生成的音频进行评价。

Jun, 2019

音频驱动的预训练扩散模型生成与编辑

我们提出了一种能够在大规模图像扩散模型中实现音频条件的方法，通过将从音频剪辑中获取的特征映射到可以注入扩散模型的令牌中，引入了额外的音频 - 图像交叉注意力层，可以与扩散编辑方法相结合进行音频条件的图像编辑。

May, 2024

ArchiSound: 漫射生成音频

该论文研究了扩散模型在音频生成方面的应用，提出了多种模型来满足音频生成的多方面需求，并通过简化工具库加速实时推理。

Jan, 2023