MMAug, 2019

基于三元组嵌入距离和相似度学习的音频无关语音说话人验证

TL;DR本文介绍了两种在培训阶段优化说话人嵌入的方法:使用三元组损失来优化嵌入之间的欧几里德距离并减少多类交叉熵损失,以及设计一种嵌入相似度测量网络来控制选定嵌入之间的相似度。将两个新方法与原始网络联合培训,实现了最先进的结果,对 2016 年 NIST 说话人识别评估测试集的等误差率(EER)和检测成本函数(DCF)分别降低了 9%。