Jul, 2022

基于生成式对抗网络从非成对音频和音位序列学习电话识别

TL;DR本文研究如何从无匹配的语音和音素序列中直接学习,设计了一个两阶段迭代框架,其中第一阶段采用 GAN 训练来寻找语音和音素序列之间的映射关系,第二阶段引入 HMM 模型来训练生成器的输出,提高了性能并为下一次迭代提供更好的分段。在实验中,我们首先研究不同的模型设计选择,然后将该框架与不同类型的基线方法进行比较,表现出更好的性能和准确性。