Mar, 2023

DTW-SiameseNet:一种用于发音错误检测和更正的动态时间扭曲连锁网络

TL;DR本研究提出了一种针对 TTS 语音合成任务中的发音错误检测和校正的高精度、适用于 PDA 的发音学习框架,同时还提出了一种基于动态时间规整技术和度量学习的发音错误检测模型 DTW-SiameseNet。结果表明,与基于音素和音频的基线相比,我们的方法平均提高了~6% 的发音准确率,并且此方法不受语言和隐私问题的影响。