控制视觉引导的声音生成

Oct, 2021

Taming Visually Guided Sound Generation

Vladimir Iashin, Esa Rahtu

TL;DR本文在视觉诱发音频生成方面进行了研究，提出了一种单一模型，可以在比单个 GPU 播放时间更短的时间内生成高保真、与视觉相符的声音，并使用新型的 FID 和 MKL 度量标准对其进行了评估。

Abstract

Recent advances in visually-induced audio generation are based on sampling short, low-fidelity, and one-class sounds. Moreover, sampling 1 second of audio from the state-of-the-art model takes minutes on a high-end GPU. In this work, we propose a single model capable of generating visu

visually-induced audio generation spectrogram vqgan gan melception

发现论文，激发创造

声音引导下的语义视频生成

本文提出了一种利用多模态（声音 - 图像 - 文本）嵌入空间生成逼真视频的框架，通过将声音和 StyleGAN 潜空间相结合生成一个语义上和声音一致的视频，并且在视频质量和编辑方面超过了现有的最先进方法。

Apr, 2022

视觉回声：简单统一变压器用于音视频生成

通过使用简单轻量级的生成型 Transformer 模型，本论文在图像到音频生成任务上取得了更好的性能，同时也可用于音频到图像生成和协同生成。

May, 2024

FoleyGAN：基于视觉引导的生成对抗网络同步静默视频音效生成

本研究提出了一种基于深度学习的视听生成模型，通过使用时间上的视觉信息来引导生成模型输出音频，以适应视听模态之间的同步性，该模型能够生成逼真的视听同步音轨，并且在人员调查和统计实验中的表现优于其他基线模型和已有的视听数据集。

Jul, 2021

音频到视觉潜在对齐的声音转视觉场景生成

本文提出了一种通过声音生成场景图像的方法，采用了深度学习等技术，结合声音定位和跨模态信息对齐来提高图像生成质量，并在相关数据集上得到了较好结果。

Mar, 2023

MelGAN: 生成对抗网络用于条件波形合成

该研究提供了一种新的、用于生成高质量音频的 GAN 结构以及相关训练技巧，并证明了其在语音合成、音乐领域翻译和音乐合成中的有效性。

Oct, 2019

MelGAN-VC: 基于频谱的任意长度样本的语音转换和音频风格转换

MelGAN-VC 使用 GAN 架构、siamese 网络等对非平行语音数据进行语音转换，不仅能精确地将源语音转换为目标语音，还能保留语音信息和灵活地建模目标说话者的风格，同时还能用于音乐风格转换等音频处理应用。

Oct, 2019

跨模态生成模型视觉引导下的双耳立体声生成

通过使用视觉引导生成对抗方法，本论文第一次提出了从单声道音频生成双元立体音频的方法，并且引入了一个测量音频空间感知的度量标准，通过定量和定向的方式评估音频的空间感知，在 2 个数据集和 5 个评价指标上实现了最先进的性能。定性实验和用户研究证明了该方法生成的空间逼真的立体音频。

Nov, 2023

Sound2Sight：从声音和上下文生成视觉动态

本研究提出了一种基于多模态深度变分模型的音频 - 视觉联合生成模型，通过学习音频及以前帧的联合嵌入，学习每一帧的随机先验知识，并生成未来视频及其动态信息。此外，还通过多模态鉴别器强化了生成框架的视频质量和一致性，实验表明该方法可以生成高质量和多样化的视频。

Jul, 2020

Musika! 快速无限波形音乐生成

Musika 是一個快速的音樂生成系統，透過將 spectrogram 轉換成可逆表示並透過生成對抗網路以一個特定的音樂領域進行訓練，使用單一普通消費 GPU 進行訓練並能在消費 CPU 上以比實時更快的速度生成任意長度的音樂，並提供使用者控制選項。

Aug, 2022

基于无时间感知 VQGAN 和时间敏感 Transformer 的长视频生成

本文提出了一种利用 3D-VQGAN 和 transformers 生成长视频的方法，并通过 UCF-101、Sky Time-lapse 和 Taichi-HD 数据集的 16 帧视频剪辑进行了验证，同时还展示了结合文本和音频等条件扩展的方法。

Apr, 2022