控制视觉引导的声音生成
本文提出了一种利用多模态(声音 - 图像 - 文本)嵌入空间生成逼真视频的框架,通过将声音和 StyleGAN 潜空间相结合生成一个语义上和声音一致的视频,并且在视频质量和编辑方面超过了现有的最先进方法。
Apr, 2022
本研究提出了一种基于深度学习的视听生成模型,通过使用时间上的视觉信息来引导生成模型输出音频,以适应视听模态之间的同步性,该模型能够生成逼真的视听同步音轨,并且在人员调查和统计实验中的表现优于其他基线模型和已有的视听数据集。
Jul, 2021
本文提出了一种通过声音生成场景图像的方法,采用了深度学习等技术,结合声音定位和跨模态信息对齐来提高图像生成质量,并在相关数据集上得到了较好结果。
Mar, 2023
MelGAN-VC 使用 GAN 架构、siamese 网络等对非平行语音数据进行语音转换,不仅能精确地将源语音转换为目标语音,还能保留语音信息和灵活地建模目标说话者的风格,同时还能用于音乐风格转换等音频处理应用。
Oct, 2019
通过使用视觉引导生成对抗方法,本论文第一次提出了从单声道音频生成双元立体音频的方法,并且引入了一个测量音频空间感知的度量标准,通过定量和定向的方式评估音频的空间感知,在 2 个数据集和 5 个评价指标上实现了最先进的性能。定性实验和用户研究证明了该方法生成的空间逼真的立体音频。
Nov, 2023
本研究提出了一种基于多模态深度变分模型的音频 - 视觉联合生成模型,通过学习音频及以前帧的联合嵌入,学习每一帧的随机先验知识,并生成未来视频及其动态信息。此外,还通过多模态鉴别器强化了生成框架的视频质量和一致性,实验表明该方法可以生成高质量和多样化的视频。
Jul, 2020
Musika 是一個快速的音樂生成系統,透過將 spectrogram 轉換成可逆表示並透過生成對抗網路以一個特定的音樂領域進行訓練,使用單一普通消費 GPU 進行訓練並能在消費 CPU 上以比實時更快的速度生成任意長度的音樂,並提供使用者控制選項。
Aug, 2022
本文提出了一种利用 3D-VQGAN 和 transformers 生成长视频的方法,并通过 UCF-101、Sky Time-lapse 和 Taichi-HD 数据集的 16 帧视频剪辑进行了验证,同时还展示了结合文本和音频等条件扩展的方法。
Apr, 2022