探索生成对抗网络如何学习音位表示

May, 2023

探索生成对抗网络如何学习音位表示

Exploring How Generative Adversarial Networks Learn Phonological Representations

Jingyi Chen, Micha Elsner

TL;DR本文探讨了生成对抗网络（GANs）如何学习语音现象的表示方法。我们分析了 GANs 如何通过应用 ciwGAN 架构（Begus 2021a）对法语和英语元音中的对比和非对比鼻音进行编码，并且讨论了训练数据频率在语音特征学习中的作用。

Abstract

This paper explores how generative adversarial networks (GANs) learn representations of phonological phenomena. We analyze how GANs encode contrastive and non-→

generative adversarial networks phonological phenomena contrastive nasality non-contrastive nasality training data frequencies

发现论文，激发创造

使用深度卷积生成对抗网络学习语音数据中的本地和非本地依赖关系，并生成类似规则的表征

本文中提出，训练 GANs 以学习语音数据中的局部和非局部依赖关系，提供了洞察深度神经网络如何离散化连续数据以及深度卷积架构中出现类似符号化的基于规则的形态音位学过程的方式。

Sep, 2020

对抗特征学习

通过设计 BiGANs 模型实现 GANs 的逆向学习与无监督特征学习以及其在辅助监督鉴别任务中的有效性。

May, 2016

SEGAN: 语音增强生成对抗网络

本研究提出使用生成对抗网络进行语音增强，通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强，目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题，实验证明该模型的可行性和有效性，未来可以进一步探索生成性结构用于提高语音增强的性能。

Mar, 2017

Articulation GAN：无监督建模关节学习

通过引入 Articulatory Generator 至 Generative Adversarial Network 范式，我们提出了一种新的无监督生成语音生成 / 合成模型，它通过学习以完全无监督的方式生成关节表征（电磁关节成像术或 EMA）更加贴近于人类语音生成。研究表明，该网络学会了像人类一样在语音生产过程中控制关节，还能够生成训练分布中存在和缺失的词语，因此对人类语言的认知模型和言语技术产生了重要的影响

Oct, 2022

利用生成对抗网络增强角色设计师的创造力

本文使用生成对抗网络的生成结果作为认知组件，以增强角色设计师在为不同的多媒体项目概念化新角色时的创造力。同时，本文通过在新的可视化角色数据集上使用单个图形处理器从头开始训练不同的 GAN 架构（包括转移学习和数据增强技术），并使用混合方法评估了生成视觉品质对角色设计师机构概念化新角色的认知价值。研究表明，本方法对该上下文的实施非常有效，将作为一个由人与机器共同设计的工作流程进一步评估。

May, 2023

生成对抗网络概述

本文概述了生成对抗网络在信号处理中的应用，讨论了 GANs 的训练方法和构建策略以及它们在 deep representations 学习中的表现和存在的挑战。

Oct, 2017

引导式生成对抗神经网络用于表示学习和使用更少标注音频数据生成高保真音频

本论文提出了一种新的 GAN 框架，即指导生成神经网络（GGAN），旨在解决无监督表征学习模型在忽略后续使用情况时可能出现的泛化能力问题，在少量标记数据的指导下，GGAN 可以学习更好的表示。

Mar, 2020

对抗性音频合成

本篇论文介绍了 WaveGAN，这是将 GANs 应用到无监督的原始音频波形合成中的第一个尝试。WaveGAN 能够合成具有全局一致性的音频波形，适用于音效生成，并且实验结果表明，它能够在没有标签的情况下学习生成一些可理解的单词和其他领域（如鸟类鸣叫、钢琴和鼓声等）的音频。

Feb, 2018

利用生成对抗网络进行鲁棒语音识别

本文提出了一种利用生成对抗网络（GAN）优化端到端框架，实现鲁棒语音识别的方法，该方法能够使编码器具有改进的不变性，而不需要依赖于专业知识或简化假设，并通过数据驱动的方式，直接提高模型的鲁棒性，从而提高了模型的远场语音识别能力。

Nov, 2017

为语音生成与转换学习潜在表征

使用变分自编码器实现了对自然语音生成过程的建模与学习，获得了较大突破。利用学习的潜在空间算术操作，实现了对语音的音素内容或说话人身份的无监督修改，无需平行监控数据。

Apr, 2017