探索生成对抗网络如何学习音位表示
本文中提出,训练 GANs 以学习语音数据中的局部和非局部依赖关系,提供了洞察深度神经网络如何离散化连续数据以及深度卷积架构中出现类似符号化的基于规则的形态音位学过程的方式。
Sep, 2020
本研究提出使用生成对抗网络进行语音增强,通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强,目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题,实验证明该模型的可行性和有效性,未来可以进一步探索生成性结构用于提高语音增强的性能。
Mar, 2017
通过引入 Articulatory Generator 至 Generative Adversarial Network 范式,我们提出了一种新的无监督生成语音生成 / 合成模型,它通过学习以完全无监督的方式生成关节表征(电磁关节成像术或 EMA)更加贴近于人类语音生成。研究表明,该网络学会了像人类一样在语音生产过程中控制关节,还能够生成训练分布中存在和缺失的词语,因此对人类语言的认知模型和言语技术产生了重要的影响
Oct, 2022
本文使用生成对抗网络的生成结果作为认知组件,以增强角色设计师在为不同的多媒体项目概念化新角色时的创造力。同时,本文通过在新的可视化角色数据集上使用单个图形处理器从头开始训练不同的 GAN 架构(包括转移学习和数据增强技术),并使用混合方法评估了生成视觉品质对角色设计师机构概念化新角色的认知价值。研究表明,本方法对该上下文的实施非常有效,将作为一个由人与机器共同设计的工作流程进一步评估。
May, 2023
本论文提出了一种新的 GAN 框架,即指导生成神经网络(GGAN),旨在解决无监督表征学习模型在忽略后续使用情况时可能出现的泛化能力问题,在少量标记数据的指导下,GGAN 可以学习更好的表示。
Mar, 2020
本篇论文介绍了 WaveGAN,这是将 GANs 应用到无监督的原始音频波形合成中的第一个尝试。WaveGAN 能够合成具有全局一致性的音频波形,适用于音效生成,并且实验结果表明,它能够在没有标签的情况下学习生成一些可理解的单词和其他领域(如鸟类鸣叫、钢琴和鼓声等)的音频。
Feb, 2018
本文提出了一种利用生成对抗网络(GAN)优化端到端框架,实现鲁棒语音识别的方法,该方法能够使编码器具有改进的不变性,而不需要依赖于专业知识或简化假设,并通过数据驱动的方式,直接提高模型的鲁棒性,从而提高了模型的远场语音识别能力。
Nov, 2017
使用变分自编码器实现了对自然语音生成过程的建模与学习,获得了较大突破。利用学习的潜在空间算术操作,实现了对语音的音素内容或说话人身份的无监督修改,无需平行监控数据。
Apr, 2017