FoleyGAN：基于视觉引导的生成对抗网络同步静默视频音效生成

Jul, 2021

FoleyGAN：基于视觉引导的生成对抗网络同步静默视频音效生成

FoleyGAN: Visually Guided Generative Adversarial Network-Based Synchronous Sound Generation in Silent Videos

Sanchita Ghose, John J. Prevost

TL;DR本研究提出了一种基于深度学习的视听生成模型，通过使用时间上的视觉信息来引导生成模型输出音频，以适应视听模态之间的同步性，该模型能够生成逼真的视听同步音轨，并且在人员调查和统计实验中的表现优于其他基线模型和已有的视听数据集。

Abstract

deep learning based visual to sound generation systems essentially need to be developed particularly considering the synchronicity aspects of visual and audio features with time. In this research we introduce a n

deep learning visual-to-sound generation synchronicity generative adversarial network automatic foley dataset

发现论文，激发创造

利用生成对抗网络进行视频驱动的语音重建

本文提出了一种基于生成式对抗网络（GANs）的、直接从无声视频中合成自然语音的端到端模型，能够根据视频内容生成与其同步的语音，并在 GRID 数据集上进行了性能评估，实现了从视频到裸音频的首次直接映射，并能够识别新演讲者的语音，并在音质和准确性方面对生成的音频进行评价。

Jun, 2019

学习生成寂静视频的逼真音频的初步探索

通过深度学习的框架及改进的人工音频生成技术，本研究旨在生成与视频相符的逼真音频效果。尝试了多种模型结构，其中基于 Transformer 的架构效果最为优秀，能有效地匹配低频的视觉模式，但在生成细微波形方面表现不佳。

Aug, 2023

基于生成对抗网络的音频到场景图像合成

通过使用生成对抗网络、谱范数、投影判别器和辅助分类器等技术，我们的模型可以更好地生成声音相关的图像，这表明我们的模型在一定程度上真正了解声音和图像之间的关系。

Aug, 2018

FoleyCrafter: 用真实且同步的声音赋予无声视频生机

通过使用 FoleyCrafter 框架，结合语义对齐和音视频同步，实现高质量音效与视频的同步生成，满足用户意图。

Jul, 2024

AutoFoley：基于深度学习的无声视频同步音轨的人工合成

AutoFoley 是一种应用于视频的全自动深度学习工具，它采用了多种技术以识别关键情节并提供与画面同步的渲染音轨，实现了高度逼真和可信的声音合成效果。

Feb, 2020

通过模拟 Foley 来从视频生成音频的条件生成

本文提出了针对视频的音效创建挑战的条件 Foley 问题，通过一种先决条件任务和一种生成模型，成功实现了在保证内容遵循用户提供的音频示例的前提下生成音效。

Apr, 2023

SyncFusion：多模始发同步的视频 - 音频佛利合成

我们提出了一种从视频中提取重复动作起点的系统，并结合音频或文本嵌入到一个训练好的扩散模型中，从而生成一个新的同步音效音轨，有效减轻声音设计师与视频同步的负担，简化声音处理的过程。

Oct, 2023

声音引导下的语义视频生成

本文提出了一种利用多模态（声音 - 图像 - 文本）嵌入空间生成逼真视频的框架，通过将声音和 StyleGAN 潜空间相结合生成一个语义上和声音一致的视频，并且在视频质量和编辑方面超过了现有的最先进方法。

Apr, 2022

使用序列到序列建模从静默视频合成音频

使用序列到序列模型和 3D 向量量化可变自编码器来从视频生成音频，以改进与音频视觉媒体的交互，包括 CCTV 镜头分析、历史视频恢复和视频生成模型。

Apr, 2024

从字幕生成视频：创造您所说的话

本文中，我们提出了一个新颖的基于标题的时序生成对抗网络（TGANs-C）来生成视频，该网络结合了数据的语义和时间上的一致性。我们通过定性和定量实验验证了我们的提议，并展示了在给定标题的情况下生成逼真视频的能力。

Apr, 2018