Aug, 2023

自我监督的口语语言表示在语音语言分离中的应用

TL;DR在一个混合语言环境中,使用隐性框架的语音语言编组(LD)作为预处理系统是必要的。通过基于固定分割、基于变化点分割和 E2E 的三种框架,提出了三种实现 LD 的方法。而当使用微软 CS(MSCS)数据集时,使用 E2E 框架的隐性 LD 的性能下降至 60.4%,主要是由于 MSCS 和 TTSF-LD 数据集中辅助语言的单语片段持续时间的分布差异。因此,为解决这个问题,本研究提出了一种自监督的隐性语言表示方法,相对于 x-vector 表示,该方法实现了约 63.9% 的改进,并在 E2E 框架下取得了 21.8 的 JER。