基于质心的深度度量学习用于说话人识别

Feb, 2019

基于质心的深度度量学习用于说话人识别

Centroid-based deep metric learning for speaker recognition

Jixuan Wang, Kuan-Chieh Wang, Marc Law, Frank Rudzicz, Michael Brudno

TL;DR本研究通过利用神经网络将话语映射到一个距离反映说话人相似度的空间中的讲话人嵌入模型，优化了一种使用典型网络损失（PNL）的讲话人嵌入模型，从而优于基于三元组损失的模型，在见过和没见过讲话人的情况下，都能够在讲话人验证和识别任务中取得更好的性能

Abstract

speaker embedding models that utilize neural networks to map utterances to a space where distances reflect similarity between speakers have driven recent progress in the speaker recognition task. However, there i

speaker embedding models neural networks few-shot learning task prototypical network loss speaker verification

发现论文，激发创造

辩护度量学习在说话人识别中的应用

本文针对未知说话人的 “开放式” 说话人识别问题，提出了一种度量学习的方法，该方法使用紧凑的嵌入来表示语音信息，并对最流行的损失函数进行了广泛评估，结果表明该方法优于现有的先进方法。

Mar, 2020

Deep Speaker: 一种端到端的神经说话人嵌入系统

Deep Speaker 是一种神经说话人嵌入系统，可以将话语映射到一个超球上，在此球上，通过余弦相似度来度量说话人的相似性。该系统通过采用 ResCNN 和 GRU 架构提取声学特征，然后通过平均池化生成话语级别的说话人嵌入，并使用基于余弦相似度的三元组损失进行训练。实验表明，Deep Speaker 优于基于 DNN 的 i 矢量基线，在三个不同数据集上表现出色，还表明适应普通话训练的模型可以提高对英语说话人的识别精度。

May, 2017

度量嵌入的半监督深度学习

本文提出了一种基于深度度量嵌入的半监督学习算法，利用少量标注数据和无标注数据的相对距离关系约束，得到在欧氏空间内区分力强的分类器，并可用于基于最近邻分类的应用。

Nov, 2016

说话人识别的统一超球嵌入

通过增加训练和测试数据的方式，寻找嵌入空间维度的最优值，使用更有区分性的损失函数来提高文本无关说话人识别系统的识别和验证准确性，在不增加额外数据或使用更深和更复杂的模型的情况下，实验结果表明：（i）重复和随机时间翻转可以将预测误差降低高达 18%。（ii）较低维度嵌入更适合进行验证。（iii）使用所提出的逻辑边距损失函数导致具有最先进的标识和竞争验证准确性的统一嵌入。

Jul, 2018

边际问题：面向说话人识别更具区分性的深度神经网络嵌入

本研究介绍了三种基于边界的深度说话人嵌入学习损失函数，以实现更优的说话人辨识性能。在 VoxCeleb1 和 SITW 两个公共数据集上的实验证明了该方法比传统的交叉熵损失函数 softmax 具有更优的性能，分别在两个数据集上实现了 25%~30% 的等误差率 (EER) 降低，并分别获得了 2.238% EER 和 2.761% EER 的性能表现。

Jun, 2019

通过深度嵌入学习替代模型

本文提出了一种通过最小化近似目标评估指标的替代损失来训练神经网络的技术，其中代理通过深度嵌入来学习，有效性在场景文本识别和检测任务中得到了证明。

Jul, 2020

使用三元组损失学习关键词检测的有效表示

本文介绍一种利用三元组损失和变种 kNN 方法，以及基于音韵相似性的三元组挖掘方法相结合的表示学习技术，显著提高卷积网络的分类准确率，特别在语音识别领域中。作者还在 Google 语音命令数据集 V1 和 V2 中刷新最佳 SOTA 并超过 50% 的准确率提升。

Jan, 2021

使用最先进的神经说话人嵌入进行零样本多说话人文本转语音

研究了使用多说话人建模中的神经发音人嵌入对零样本适应的影响，发现使用可学习字典编码的说话人嵌入，能够在说话人验证任务中提高等误差率，在未知说话人使用时提高零样本适应性，并提高端到端语音合成的说话人相似性和自然度。

Oct, 2019

通过提升的结构特征嵌入进行深度度量学习

本文介绍了一种利用训练批次的算法，将向量的成对距离提升到成对距离矩阵，从而以学习结构化预测目标的方式来优化最先进的特征嵌入方法，同时在 CUB-200-2011、CARS196 和 Online Products 数据集上进行实验，证明在所有实验的嵌入尺寸上都能够显著提高。

Nov, 2015

使用三元组网络进行深度度量学习

本文提出了三元组网络模型，通过距离比较来学习有用的表示方法，在多个数据集上的结果显示其比竞争对手孪生网络学习了更好的表示方法，而且还探讨了其作为无监督学习框架的未来可能用途。

Dec, 2014