Jul, 2024

走向语音表征学习的下一个前沿:利用解缠绕

TL;DR我们提出了一种名为 Learn2Diss 的自我监督学习语音表示的框架,它包括帧级和话语级编码器模块,通过解开两个编码器并使用基于互信息的标准来进行联合学习,从而在多种任务上实现了最先进的结果,帧级编码器的表示改进了语义任务,而话语级表示改进了非语义任务。