基于生成对抗网络的音频到场景图像合成
本文介绍了在频谱域中建模日志幅度和瞬时频率可提高 GAN 在音频合成方面的表现,并通过 NSynth 数据集的大量实证研究表明,GAN 能够比强 WaveNet 基线在自动化和人工评估指标上表现更好,而且比自回归模型产生的音频快几个数量级。
Feb, 2019
本篇论文介绍了 WaveGAN,这是将 GANs 应用到无监督的原始音频波形合成中的第一个尝试。WaveGAN 能够合成具有全局一致性的音频波形,适用于音效生成,并且实验结果表明,它能够在没有标签的情况下学习生成一些可理解的单词和其他领域(如鸟类鸣叫、钢琴和鼓声等)的音频。
Feb, 2018
使用条件前馈生成器和多个鉴别器组成的架构,GAN-TTS 能够生成自然度与当前最先进的模型相当,而且可以高度并行化。同时,研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。
Sep, 2019
本研究提出使用生成对抗网络进行语音增强,通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强,目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题,实验证明该模型的可行性和有效性,未来可以进一步探索生成性结构用于提高语音增强的性能。
Mar, 2017
本研究提出了一种基于深度学习的视听生成模型,通过使用时间上的视觉信息来引导生成模型输出音频,以适应视听模态之间的同步性,该模型能够生成逼真的视听同步音轨,并且在人员调查和统计实验中的表现优于其他基线模型和已有的视听数据集。
Jul, 2021
本文提出了一种基于生成式对抗网络(GANs)的、直接从无声视频中合成自然语音的端到端模型,能够根据视频内容生成与其同步的语音,并在 GRID 数据集上进行了性能评估,实现了从视频到裸音频的首次直接映射,并能够识别新演讲者的语音,并在音质和准确性方面对生成的音频进行评价。
Jun, 2019
利用递归神经网络和深度卷积生成对抗网络构建了新的深度架构和 GAN 公式,将字符转换为像素,有效地将文本和图像建模相结合,从而实现了从详细文本描述中生成花和鸟的逼真图像的能力。
May, 2016
该论文提出了一种基于深度学习的方法,使用生成对抗网络(GANs)对声场进行时空重建。该方法利用平面波基础,并学习房间内压力的潜在统计分布,以从有限数量的测量中准确重建声场。该方法的性能经过两个已建立的数据集评估,并与最先进的方法进行比较。结果表明,该模型能够在准确性和能量保持方面实现改进的重建性能,尤其是在高频范围和超过测量区域的外推时。此外,所提出的方法能够处理不同数量和配置的测量位置而不影响性能。结果表明,该方法为使用生成模型进行声场重建提供了一种有前景的方法,允许对声学问题进行物理上明确的先验条件。
Aug, 2023