边际问题：面向说话人识别更具区分性的深度神经网络嵌入

Jun, 2019

边际问题：面向说话人识别更具区分性的深度神经网络嵌入

Margin Matters: Towards More Discriminative Deep Neural Network Embeddings for Speaker Recognition

Xu Xiang, Shuai Wang, Houjun Huang, Yanmin Qian, Kai Yu

TL;DR本研究介绍了三种基于边界的深度说话人嵌入学习损失函数，以实现更优的说话人辨识性能。在 VoxCeleb1 和 SITW 两个公共数据集上的实验证明了该方法比传统的交叉熵损失函数 softmax 具有更优的性能，分别在两个数据集上实现了 25%~30% 的等误差率 (EER) 降低，并分别获得了 2.238% EER 和 2.761% EER 的性能表现。

Abstract

Recently, speaker embeddings extracted from a speaker discriminative deep neural network (dnn) yield better performance than the conventional methods such as i-vector. In most cases, the →

speaker embeddings dnn margin based losses speaker recognition state-of-the-art performance

发现论文，激发创造

演讲者验证的大边际 Softmax 损失

本文研究了在说话人验证中，利用不同配置的大边际 softmax 损失、环形损失和最小超球能量准则等损失函数进行训练的方法，结果显示我们的最佳系统在 EER 方面优于基线方法 15％，在 minDCF08 和 minDCF10 方面分别优于基线方法 13％和 33％。

Apr, 2019

说话人识别的统一超球嵌入

通过增加训练和测试数据的方式，寻找嵌入空间维度的最优值，使用更有区分性的损失函数来提高文本无关说话人识别系统的识别和验证准确性，在不增加额外数据或使用更深和更复杂的模型的情况下，实验结果表明：（i）重复和随机时间翻转可以将预测误差降低高达 18%。（ii）较低维度嵌入更适合进行验证。（iii）使用所提出的逻辑边距损失函数导致具有最先进的标识和竞争验证准确性的统一嵌入。

Jul, 2018

分类的大边缘判别损失

这篇论文介绍了一种在深度学习背景下具有较大边界的新型判别性损失函数，通过提高神经网络的判别能力，即类内紧凑性和类间可分性，来优化特征空间，同时通过数学分析关系、设计策略和研究泛化误差，提高模型的测试准确性。

May, 2024

学习最大边界

本文提出采用最大化间隔损失的优化目标，定义类间隔与样本间隔，推导出广义的间隔 softmax 损失，并在此基础上设计出新工具，即样本间隔正则化、适用于类均衡情形的最大间隔 softmax 损失和适用于类不平衡情形的零中心正则化。实验结果表明，本文的方法对于视觉分类、样本不平衡分类、人员重新识别和人脸验证等任务具有很好的效果。

Jun, 2022

Deep Speaker: 一种端到端的神经说话人嵌入系统

Deep Speaker 是一种神经说话人嵌入系统，可以将话语映射到一个超球上，在此球上，通过余弦相似度来度量说话人的相似性。该系统通过采用 ResCNN 和 GRU 架构提取声学特征，然后通过平均池化生成话语级别的说话人嵌入，并使用基于余弦相似度的三元组损失进行训练。实验表明，Deep Speaker 优于基于 DNN 的 i 矢量基线，在三个不同数据集上表现出色，还表明适应普通话训练的模型可以提高对英语说话人的识别精度。

May, 2017

基于质心的深度度量学习用于说话人识别

本研究通过利用神经网络将话语映射到一个距离反映说话人相似度的空间中的讲话人嵌入模型，优化了一种使用典型网络损失（PNL）的讲话人嵌入模型，从而优于基于三元组损失的模型，在见过和没见过讲话人的情况下，都能够在讲话人验证和识别任务中取得更好的性能

Feb, 2019

深度嵌入学习中的采样问题

本文提出了基于距离加权采样的深度嵌入方法，用于图像检索、聚类和人脸验证任务，取得了所有数据集上的最优性能。

Jun, 2017

基于误分类向量引导的人脸识别 Softmax 损失

本论文提出了一种新的适应性损失函数，该函数强调错分特征向量以指导较有区别的特征学习，从而解决传统损失函数在面部识别中存在的问题，并在多个基准测试上取得了比其他先进替代方案更有效的实验结果。

Nov, 2019

深度聚类：用于分割和分离的判别嵌入

本文提出了一种称为 “深度聚类” 的深度学习框架，通过使用光谱图嵌入进行声源分离，从而实现类无关的信号分离，大大降低了领域分割成本，并且不依靠类别给出类标签，具有将不同源集合的潜力。

Aug, 2015

深度说话人嵌入架构中的残差信息

本文介绍了针对六个最新高性能的 DNN 体系结构提取出的演讲者嵌入的分析，重点关注它们能够从语音信号中真正区分讲话者身份的程度。结果表明，这些嵌入的区分能力非常高，但在所有已分析的体系结构中，残余信息仍呈现为与录音条件、语言内容和话语持续时间高度相关的形式。

Feb, 2023