基于生成式对抗网络从非成对音频和音位序列学习电话识别

Jul, 2022

基于生成式对抗网络从非成对音频和音位序列学习电话识别

Learning Phone Recognition from Unpaired Audio and Phone Sequences Based on Generative Adversarial Network

Da-rong Liu, Po-chun Hsu, Yi-chen Chen, Sung-feng Huang, Shun-po Chuang...

TL;DR本文研究如何从无匹配的语音和音素序列中直接学习，设计了一个两阶段迭代框架，其中第一阶段采用 GAN 训练来寻找语音和音素序列之间的映射关系，第二阶段引入 HMM 模型来训练生成器的输出，提高了性能并为下一次迭代提供更好的分段。在实验中，我们首先研究不同的模型设计选择，然后将该框架与不同类型的基线方法进行比较，表现出更好的性能和准确性。

Abstract

asr has been shown to achieve great performance recently. However, most of them rely on massive paired data, which is not feasible for low-resource languages worldwide. This paper investigates how to learn directly from unpaired →

asr unpaired learning phone sequences speech utterances gan

发现论文，激发创造

通过与迭代精化的隐马尔可夫模型协调的生成对抗网络实现完全无监督语音识别

本研究使用生成对抗网络和隐马尔可夫模型开发了一种适用于低资源语言的无监督语音识别方法，并在 TIMIT 数据集上实现了 33.1% 的电话错误率，比现有技术提高了 8.5%。

Apr, 2019

通过对音频嵌入进行对抗学习映射关系实现完全无监督的音素识别

本文提出一种利用生成对抗网络进行无监督音素识别的方法，并取得了 36% 的准确率。

Apr, 2018

使用非成对语音和文本的半监督序列到序列自动语音识别

本文提出了一种新的半监督训练方法，该方法结合了端到端的不可区分的 ASR->TTS 损失和 TTS->ASR 损失，利用未配对的语音和文本数据，相较于其他相关技术在 WSJ 和 Librispeech 语料库上的 WER 性能更好。

Apr, 2019

使用引导生成对抗网络在不匹配环境中高效转换声学特征

提出一个新的框架，可以通过运行生成式对抗网络（GAN）生成更好的音频特征，从而提高自动语音识别（ASR）系统的性能，此框架在资源稀缺的环境中非常有用。

Oct, 2022

利用未对齐的语音和文本训练的非监督自动语音识别技术

本文研究无监督语音识别方法，提出由语音向量表示、语义嵌入和无监督转换的框架，这一框架可用于缺乏音频文本对齐数据和受监督方法无法应用的低资源语言。

Mar, 2018

通过扩散 GAN 提升无监督语音识别

使用扩散 - GAN 提高无监督自动语音识别的敌对训练方法。将各种强度的实例噪声注入生成器的输出和来自预训练音素语言模型的未标记参考文本，使用时间步骤相关的判别器将它们分开，并将梯度反向传播更新生成器，实验表明该增强策略能有效地提高语音识别词错误率。

Mar, 2023

一种利用非配对语音和文本进行低资源自动语音识别的补充联合训练方法

本篇论文介绍了如何利用未配对的语音和文本数据，通过生成相应的缺失部分进行模型训练，并提出了一种称为 CJT++ 的补充联合训练方法，包括伪标签的标签掩蔽和合成音频的梯度限制，以应对与真实数据的偏差。实验结果表明，相比于仅使用语音进行训练，所提出的基本 CJT 方法在干净 / 其他测试集上实现了显著的性能提升，CJT++ 重新训练进一步增强了性能，并在极低资源情况下特别优于相同模型大小和波束大小的 wav2vec2.0 模型。

Apr, 2022

利用生成对抗网络进行鲁棒语音识别

本文提出了一种利用生成对抗网络（GAN）优化端到端框架，实现鲁棒语音识别的方法，该方法能够使编码器具有改进的不变性，而不需要依赖于专业知识或简化假设，并通过数据驱动的方式，直接提高模型的鲁棒性，从而提高了模型的远场语音识别能力。

Nov, 2017

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

使用数据模拟进行非监督噪声适应

本文提出利用生成式对抗网络实现深度神经网络的非监督噪声自适应问题，成功地解决了训练 - 测试数据集之间的偏差，提高了语音增强模型的性能。

Feb, 2023