Feb, 2023

深度说话人嵌入架构中的残差信息

TL;DR本文介绍了针对六个最新高性能的 DNN 体系结构提取出的演讲者嵌入的分析,重点关注它们能够从语音信号中真正区分讲话者身份的程度。结果表明,这些嵌入的区分能力非常高,但在所有已分析的体系结构中,残余信息仍呈现为与录音条件、语言内容和话语持续时间高度相关的形式。