May, 2017

Deep Speaker: 一种端到端的神经说话人嵌入系统

TL;DRDeep Speaker 是一种神经说话人嵌入系统,可以将话语映射到一个超球上,在此球上,通过余弦相似度来度量说话人的相似性。该系统通过采用 ResCNN 和 GRU 架构提取声学特征,然后通过平均池化生成话语级别的说话人嵌入,并使用基于余弦相似度的三元组损失进行训练。实验表明,Deep Speaker 优于基于 DNN 的 i 矢量基线,在三个不同数据集上表现出色,还表明适应普通话训练的模型可以提高对英语说话人的识别精度。