Apr, 2023
理解共享的语音文本表示
Understanding Shared Speech-Text Representations
Gary Wang, Kyle Kastner, Ankur Bapna, Zhehuai Chen, Andrew Rosenberg...
TL;DR本文研究基于端到端模型训练语音模型的近期方法进展,通过两种分析方法进一步扩展了对共享语音文本表示的理解:第一是研究了自由领域适应的极限,在此基础上发现针对语音文本对齐的时长模型是最重要的,这有助于学习共享语音文本表示;第二是比较了单一(语音或文本)编码器和共享编码器的激活相似性,发现共享编码器能够学习到更紧凑重叠的语音文本表示,这也是 Maestro 共享语音文本表示性能优异的部分原因。