Sep, 2018

深度说话人嵌入中的注意力机制学习了什么?

TL;DR本文采用注意力机制实现深度说话人嵌入,将注意力模型作为帧选择器,计算每个帧级特征向量的注意力权重来产生说话人嵌入模型的汇聚层中的语音表征等内容,并在 NIST 演讲者识别评估 (SRE) 任务中进行 9.0% EER 降低和 3.8%min_Cprimary 降低的实验,同时,还阐述了在深度说话人嵌入和 i 向量系统中结合 DNN 软语音活动检测 (VAD) 与注意力机制,将显著降低 minCprimary。