Apr, 2023

理解共享的语音文本表示

TL;DR本文研究基于端到端模型训练语音模型的近期方法进展,通过两种分析方法进一步扩展了对共享语音文本表示的理解:第一是研究了自由领域适应的极限,在此基础上发现针对语音文本对齐的时长模型是最重要的,这有助于学习共享语音文本表示;第二是比较了单一(语音或文本)编码器和共享编码器的激活相似性,发现共享编码器能够学习到更紧凑重叠的语音文本表示,这也是 Maestro 共享语音文本表示性能优异的部分原因。