使用 CycleGAN 和跨域损失改进半监督端到端自动语音识别

Oct, 2022

使用 CycleGAN 和跨域损失改进半监督端到端自动语音识别

Improving Semi-supervised End-to-end Automatic Speech Recognition using CycleGAN and Inter-domain Losses

PDF

Chia-Yu Li, Ngoc Thang Vu

TL;DR本研究提出了一种结合 CycleGAN 和域间损失的新方法，用于半监督的端到端自动语音识别，利用这种方法可以在无配对的语音文本输入上进行训练，并取得了明显的性能提升。

Abstract

We propose a novel method that combines cyclegan and inter-domain losses for semi-supervised end-to-end →

semi-supervised automatic speech recognition shared representation cyclegan inter-domain losses

发现论文，激发创造

一种多判别器循环生成对抗网络用于非平行语音领域自适应无监督学习

本研究提出了一种基于循环一致性生成对抗网络 (CycleGAN) 的非平行语音领域自适应的新生代模型，通过在功率频谱上使用多个独立的判别器，模型能够产生更逼真的域自适应谱图，在性别自适应的语音识别任务上，相对于基线模型，在 TIMIT 和 WSJ 数据集上表现都有很大提升。

Mar, 2018

打破循环 -- 同事就是你需要的全部

该研究提出了一种新的图像到图像的转换方法，通过多个 GAN 的协作实现多模态目标，可解决许多传统 GAN 存在的问题，包括不必要的痕迹、大物体移除以及形状变换困难等，实验结果在多个应用场景和数据集中都表现出优异的性能。

Nov, 2019

Twin-GAN -- 权重共享的无配对跨领域图像翻译 GAN

本论文提出了一种框架，用于将一个领域的未标记图像转换为另一个领域的类似图像，并使用逐渐增长的跳跃连接编码器 - 生成器结构进行训练，其中应用了 GAN Loss、循环一致性 Loss 和语义一致性 Loss 来保持相同领域的翻译身份，并鼓励网络保留输入的语义特征。作者在人脸图像翻译任务上应用了该框架，并展示了它可以在没有监督一对一图像映射情况下学习人脸图像的语义映射。

Aug, 2018

增强循环 GAN: 从非配对数据学习多对多映射

通过学习多对多的映射关系，我们提出一种新的模型 Augmented CycleGAN，使得在缺乏配对数据的情况下能够从非配对数据中提取结构信息，从而提高图像分割等结构化预测任务的性能，这在 CycleGAN 的假设单向单映射关系无法满足的情况下格外重要，并且通过实验证明了模型在多个图像数据集上的有效性。

Feb, 2018

增强循环对抗学习用于低资源域自适应

本文介绍了一种增强循环对抗学习模型，用于域适应并解决在其中数据丰富的域中对任务的学习问题，通过迁移学习及结合声音识别任务的结果，在低资源环境下将 SVHN 和 MNIST 彼此转换的分类准确率分别提升了 14% 和 4%。

Jul, 2018

跨领域生成对抗网络：无监督多领域图像翻译

提出了一种无监督的图像翻译框架，使用一对编码器加上一对生成对抗网络来提取不同域之间的高级特征以生成逼真的多样化样本。该框架在许多图像转化任务上展示出与最先进技术相竞争的结果。

Aug, 2020

StereoGAN: 聚合域翻译和立体匹配的联合优化来桥接从合成到真实领域的差距

本研究提出了一种端到端的域翻译和立体匹配网络训练框架，通过引入双向多尺度特征重投影损失和相关性一致性损失等两个新颖的损失函数来提高合成立体图像到真实图像的转换效果以及维护单应约束，实验证明进行域翻译和立体匹配网络联合优化能够有效地解决合成数据集所引入的领域偏差问题，从而实现更准确的立体匹配。

May, 2020

使用循环一致性对抗网络进行并行无数据语音转换

本文提出了一个无需并行数据的语音转换方法，称为 CycleGAN-VC，使用循环一致性对抗网络（CycleGAN）与门控卷积神经网络（CNNs）和身份映射损失，可以在不依赖于并行数据的情况下学习从源声音到目标声音的映射，该方法适用于不同的语音转换任务，具有高品质、不需要额外的数据、模块或对准过程，并可以避免无法逆转的模型失真问题。

Nov, 2017

非配对图像翻译的不对称生成对抗网络

本文提出了一种名为 AsymGAN 的模型，通过引入辅助变量 (auxiliary variable) 来解决不对称领域下的图像翻译过程中出现的质量差、映射模糊、模型敏感性等问题，该模型能够更好地在信息贫瘠的领域转移信息，并在图像翻译上展现出显著的性能提升。

Dec, 2019

探索显式领域监督在无配对图像翻译中的潜在空间解缠

本文提出了一种基于显式域监督的非配对图像翻译框架 DosGAN，该框架使用分类网络提取每个图像的域特定特征，并使用另一个编码器提取域无关的特征，二者结合生成目标域的图像。该方法在多个数据集上进行了实验，证明了其有效性，并且可以进行任何两个图像之间的有条件翻译，而以前的模型不能处理此任务。

Feb, 2019