演讲者验证的大边际 Softmax 损失
本研究介绍了三种基于边界的深度说话人嵌入学习损失函数,以实现更优的说话人辨识性能。在 VoxCeleb1 和 SITW 两个公共数据集上的实验证明了该方法比传统的交叉熵损失函数 softmax 具有更优的性能,分别在两个数据集上实现了 25%~30% 的等误差率 (EER) 降低,并分别获得了 2.238% EER 和 2.761% EER 的性能表现。
Jun, 2019
本研究使用角度 softmax (A-softmax) 替代传统的 softmax loss 和三元组损失,将其引入端对端说话人验证中进行特征学习,结合 PLDA 后进一步提升了该系统的性能。
Jun, 2018
提出了一种新的损失函数,EM-Softmax,用于训练 CNN 模型的分类任务,以解决 softmax loss 在特征区分度和分类器弱点方面的局限性,并使用 Hilbert-Schmidt 独立性准则构建弱分类器的集合,通过实验验证其优于当前状态下的 softmax loss 和其他一些算法的性能。
May, 2018
本文提出了 L-Softmax loss 作为一种广义的大边际 softmax(L-Softmax)损失函数,可以显式地鼓励所学特征的类内紧密性和类间可分性,并且能够调整想要的边际并避免过拟合,并在四个基准数据集上进行了广泛实验,结果表明使用 L-Softmax 且深度学习的特征更具有区分度,从而大大提高了各种视觉分类和验证任务的性能。
Dec, 2016
我们通过 “对称” 形式的对比损失重新思考正负样本对的采样方式,并引入了在监督设置中被广泛采用的 AM-Softmax 和 AAM-Softmax 等边缘,展示了对称对比损失的有效性,以及 Additive Margin 和 Additive Angular Margin 能够通过改善讲话人可分性来减少错误识别。最终,通过结合这两种技术并训练一个更大的模型,我们在 VoxCeleb1 测试集上取得了 7.50% 的 EER 和 0.5804 的 minDCF,优于其他对比自监督方法在讲话人验证上的表现。
Jun, 2023
通过增加训练和测试数据的方式,寻找嵌入空间维度的最优值,使用更有区分性的损失函数来提高文本无关说话人识别系统的识别和验证准确性,在不增加额外数据或使用更深和更复杂的模型的情况下,实验结果表明:(i)重复和随机时间翻转可以将预测误差降低高达 18%。(ii)较低维度嵌入更适合进行验证。(iii)使用所提出的逻辑边距损失函数导致具有最先进的标识和竞争验证准确性的统一嵌入。
Jul, 2018
本文提出基于余弦相似度的大间距余弦损失函数,提高了人脸识别深度卷积神经网络的性能,在 MegaFace Challenge、Youtube Faces、Labeled Face in the Wild 等公共数据集上达到了最先进的表现。
Jan, 2018
本研究中,我们给特征描述符添加了一个 L2 约束,以保证它们位于一个固定半径的超球面上,该步骤可以显著提高面部验证的性能,特别是在 IJB-A 数据集上实现了 0.909 的 True Accept Rate 以及 0.0001 的 False Accept Rate。
Mar, 2017
本文针对未知说话人的 “开放式” 说话人识别问题,提出了一种度量学习的方法,该方法使用紧凑的嵌入来表示语音信息,并对最流行的损失函数进行了广泛评估,结果表明该方法优于现有的先进方法。
Mar, 2020
本文提出采用最大化间隔损失的优化目标,定义类间隔与样本间隔,推导出广义的间隔 softmax 损失,并在此基础上设计出新工具,即样本间隔正则化、适用于类均衡情形的最大间隔 softmax 损失和适用于类不平衡情形的零中心正则化。实验结果表明,本文的方法对于视觉分类、样本不平衡分类、人员重新识别和人脸验证等任务具有很好的效果。
Jun, 2022