基于生成对抗网络的音频到场景图像合成

Aug, 2018

基于生成对抗网络的音频到场景图像合成

Towards Audio to Scene Image Synthesis using Generative Adversarial Network

Chia-Hung Wan, Shun-Po Chuang, Hung-Yi Lee

TL;DR通过使用生成对抗网络、谱范数、投影判别器和辅助分类器等技术，我们的模型可以更好地生成声音相关的图像，这表明我们的模型在一定程度上真正了解声音和图像之间的关系。

Abstract

Humans can imagine a scene from a sound. We want machines to do so by using conditional generative adversarial networks (GANs). By applying the techniques including spectral norm, →

generative adversarial networks spectral norm projection discriminator auxiliary classifier sound-to-image conversion

发现论文，激发创造

GANSynth：对抗神经音频合成

本文介绍了在频谱域中建模日志幅度和瞬时频率可提高 GAN 在音频合成方面的表现，并通过 NSynth 数据集的大量实证研究表明，GAN 能够比强 WaveNet 基线在自动化和人工评估指标上表现更好，而且比自回归模型产生的音频快几个数量级。

Feb, 2019

对抗性音频合成

本篇论文介绍了 WaveGAN，这是将 GANs 应用到无监督的原始音频波形合成中的第一个尝试。WaveGAN 能够合成具有全局一致性的音频波形，适用于音效生成，并且实验结果表明，它能够在没有标签的情况下学习生成一些可理解的单词和其他领域（如鸟类鸣叫、钢琴和鼓声等）的音频。

Feb, 2018

用对抗网络实现高保真度语音合成

使用条件前馈生成器和多个鉴别器组成的架构，GAN-TTS 能够生成自然度与当前最先进的模型相当，而且可以高度并行化。同时，研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。

Sep, 2019

SEGAN: 语音增强生成对抗网络

本研究提出使用生成对抗网络进行语音增强，通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强，目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题，实验证明该模型的可行性和有效性，未来可以进一步探索生成性结构用于提高语音增强的性能。

Mar, 2017

FoleyGAN：基于视觉引导的生成对抗网络同步静默视频音效生成

本研究提出了一种基于深度学习的视听生成模型，通过使用时间上的视觉信息来引导生成模型输出音频，以适应视听模态之间的同步性，该模型能够生成逼真的视听同步音轨，并且在人员调查和统计实验中的表现优于其他基线模型和已有的视听数据集。

Jul, 2021

利用生成对抗网络进行视频驱动的语音重建

本文提出了一种基于生成式对抗网络（GANs）的、直接从无声视频中合成自然语音的端到端模型，能够根据视频内容生成与其同步的语音，并在 GRID 数据集上进行了性能评估，实现了从视频到裸音频的首次直接映射，并能够识别新演讲者的语音，并在音质和准确性方面对生成的音频进行评价。

Jun, 2019

MelGAN: 生成对抗网络用于条件波形合成

该研究提供了一种新的、用于生成高质量音频的 GAN 结构以及相关训练技巧，并证明了其在语音合成、音乐领域翻译和音乐合成中的有效性。

Oct, 2019

生成对抗文本到图像的合成

利用递归神经网络和深度卷积生成对抗网络构建了新的深度架构和 GAN 公式，将字符转换为像素，有效地将文本和图像建模相结合，从而实现了从详细文本描述中生成花和鸟的逼真图像的能力。

May, 2016

生成对抗网络在图像合成中的介绍

本文提供了生成对抗网络在图像合成中的方法分类、文本到图像合成和图像到图像翻译的不同模型的回顾、以及一些评估指标及未来可能的研究方向。

Mar, 2018

具备物理声场先验的生成对抗网络

该论文提出了一种基于深度学习的方法，使用生成对抗网络（GANs）对声场进行时空重建。该方法利用平面波基础，并学习房间内压力的潜在统计分布，以从有限数量的测量中准确重建声场。该方法的性能经过两个已建立的数据集评估，并与最先进的方法进行比较。结果表明，该模型能够在准确性和能量保持方面实现改进的重建性能，尤其是在高频范围和超过测量区域的外推时。此外，所提出的方法能够处理不同数量和配置的测量位置而不影响性能。结果表明，该方法为使用生成模型进行声场重建提供了一种有前景的方法，允许对声学问题进行物理上明确的先验条件。

Aug, 2023