Oct, 2023

Mason-Alberta语音划分器:基于深度神经网络和插值的强制对齐系统

TL;DR在本研究中,我们描述了一种新的基于神经网络的强制韵律对齐系统,Mason-Alberta声学分割器(MAPS),它作为测试平台用于改进强制韵律对齐系统的两种潜在方法:将强制对齐器中的声学模型视为标记任务而非分类任务,以及使用一种插值技术让边界更精确。与现有的最先进系统Montreal Forced Aligner相比,标记方法通常并没有取得更好的结果,但是使用插值技术的系统在测试集中比Montreal Forced Aligner的目标边界多10毫秒的数量上增加了27.92%。我们还思考了强制对齐中声学建模的任务和训练过程,并强调模型的输出目标与语音学家对音素间相似度的理解不完全相符,解决这种紧张可能需要重新思考任务和输出目标,或者如何对语音进行分割。