Jul, 2024

从语音中独立估计发音器官运动和音位对齐

TL;DR引入了一种新的方法,将声学到口腔运动的转换和音素到口腔运动估计两项任务结合起来,称之为声学音素到口腔运动的反演。探索了两种不同的方法,在推理过程中都采用与说话人和文本无关的方式。使用多任务学习的模式,以端到端的目标将原始语音作为输入,估计相应的口腔运动、音素序列和音素对齐。两种方法在音素相关预测方面有所不同,一个基于帧分类,另一个采用两阶段训练过程和强制对齐。在声学到口腔运动转换任务中获得了0.73的平均相关性,并与现有的依赖于文本的音素强制对齐器相比,实现了高达87%的帧重叠。