辩护度量学习在说话人识别中的应用
本研究通过利用神经网络将话语映射到一个距离反映说话人相似度的空间中的讲话人嵌入模型,优化了一种使用典型网络损失(PNL)的讲话人嵌入模型,从而优于基于三元组损失的模型,在见过和没见过讲话人的情况下,都能够在讲话人验证和识别任务中取得更好的性能
Feb, 2019
本篇文章提出了对非语义任务进行语音表征对比的基准,并提出了一种基于无监督三元组损失目标的表征方法,该方法在基准测试中表现优异,甚至在许多迁移学习任务中超越了最新技术水平;
Feb, 2020
本文介绍一种利用三元组损失和变种 kNN 方法,以及基于音韵相似性的三元组挖掘方法相结合的表示学习技术,显著提高卷积网络的分类准确率,特别在语音识别领域中。作者还在 Google 语音命令数据集 V1 和 V2 中刷新最佳 SOTA 并超过 50% 的准确率提升。
Jan, 2021
通过增加训练和测试数据的方式,寻找嵌入空间维度的最优值,使用更有区分性的损失函数来提高文本无关说话人识别系统的识别和验证准确性,在不增加额外数据或使用更深和更复杂的模型的情况下,实验结果表明:(i)重复和随机时间翻转可以将预测误差降低高达 18%。(ii)较低维度嵌入更适合进行验证。(iii)使用所提出的逻辑边距损失函数导致具有最先进的标识和竞争验证准确性的统一嵌入。
Jul, 2018
通过深度度学习,优化深度神经网络的目标函数在创建输入数据的增强特征表示中起着至关重要的作用。然而,基于交叉熵的损失函数对于具有大的类内差异和低的类间差异的输入数据分布来说往往不够充分。深度度量学习旨在通过学习将数据样本映射到代表性嵌入空间的表示函数,以度量数据样本之间的相似性。它利用精心设计的采样策略和损失函数,帮助优化产生具有低类间和高类内方差的区分性嵌入空间的生成。在本章中,我们将概述该领域最新的进展,并讨论最先进的深度度量学习方法。
Dec, 2023
本文提出了一种基于深度度量嵌入的半监督学习算法,利用少量标注数据和无标注数据的相对距离关系约束,得到在欧氏空间内区分力强的分类器,并可用于基于最近邻分类的应用。
Nov, 2016
本文研究了在说话人验证中,利用不同配置的大边际 softmax 损失、环形损失和最小超球能量准则等损失函数进行训练的方法,结果显示我们的最佳系统在 EER 方面优于基线方法 15%,在 minDCF08 和 minDCF10 方面分别优于基线方法 13%和 33%。
Apr, 2019
提出了两种不同的损失函数 ——Proto-Triplet Loss 和 ICNN loss,其中考虑了嵌入向量的重要性,并评估了训练后网络获得的嵌入的质量。在实验中,相比其他度量法,这些损失函数在 miniImagenNet 基准测试中将准确率显著提高了 2%,表明这些损失函数有能力使网络更好地推广到以前未见过的类别。
May, 2023
本文提出了三元组网络模型,通过距离比较来学习有用的表示方法,在多个数据集上的结果显示其比竞争对手孪生网络学习了更好的表示方法,而且还探讨了其作为无监督学习框架的未来可能用途。
Dec, 2014
本研究介绍了三种基于边界的深度说话人嵌入学习损失函数,以实现更优的说话人辨识性能。在 VoxCeleb1 和 SITW 两个公共数据集上的实验证明了该方法比传统的交叉熵损失函数 softmax 具有更优的性能,分别在两个数据集上实现了 25%~30% 的等误差率 (EER) 降低,并分别获得了 2.238% EER 和 2.761% EER 的性能表现。
Jun, 2019