辩护度量学习在说话人识别中的应用

Mar, 2020

辩护度量学习在说话人识别中的应用

In defence of metric learning for speaker recognition

Joon Son Chung, Jaesung Huh, Seongkyu Mun, Minjae Lee, Hee Soo Heo...

TL;DR本文针对未知说话人的 “开放式” 说话人识别问题，提出了一种度量学习的方法，该方法使用紧凑的嵌入来表示语音信息，并对最流行的损失函数进行了广泛评估，结果表明该方法优于现有的先进方法。

Abstract

The objective of this paper is 'open-set' speaker recognition of unseen speakers, where ideal embeddings should be able to condense information into a compact utterance-level representation that has small intra-speaker and large inter-speaker distance. A popular belief in speaker recog

open-set speaker recognition embeddings loss functions metric learning voxceleb dataset

发现论文，激发创造

基于质心的深度度量学习用于说话人识别

本研究通过利用神经网络将话语映射到一个距离反映说话人相似度的空间中的讲话人嵌入模型，优化了一种使用典型网络损失（PNL）的讲话人嵌入模型，从而优于基于三元组损失的模型，在见过和没见过讲话人的情况下，都能够在讲话人验证和识别任务中取得更好的性能

Feb, 2019

学习语音的通用非语义表示

本篇文章提出了对非语义任务进行语音表征对比的基准，并提出了一种基于无监督三元组损失目标的表征方法，该方法在基准测试中表现优异，甚至在许多迁移学习任务中超越了最新技术水平；

Feb, 2020

使用三元组损失学习关键词检测的有效表示

本文介绍一种利用三元组损失和变种 kNN 方法，以及基于音韵相似性的三元组挖掘方法相结合的表示学习技术，显著提高卷积网络的分类准确率，特别在语音识别领域中。作者还在 Google 语音命令数据集 V1 和 V2 中刷新最佳 SOTA 并超过 50% 的准确率提升。

Jan, 2021

说话人识别的统一超球嵌入

通过增加训练和测试数据的方式，寻找嵌入空间维度的最优值，使用更有区分性的损失函数来提高文本无关说话人识别系统的识别和验证准确性，在不增加额外数据或使用更深和更复杂的模型的情况下，实验结果表明：（i）重复和随机时间翻转可以将预测误差降低高达 18%。（ii）较低维度嵌入更适合进行验证。（iii）使用所提出的逻辑边距损失函数导致具有最先进的标识和竞争验证准确性的统一嵌入。

Jul, 2018

计算机视觉中的深度度量学习概述

通过深度度学习，优化深度神经网络的目标函数在创建输入数据的增强特征表示中起着至关重要的作用。然而，基于交叉熵的损失函数对于具有大的类内差异和低的类间差异的输入数据分布来说往往不够充分。深度度量学习旨在通过学习将数据样本映射到代表性嵌入空间的表示函数，以度量数据样本之间的相似性。它利用精心设计的采样策略和损失函数，帮助优化产生具有低类间和高类内方差的区分性嵌入空间的生成。在本章中，我们将概述该领域最新的进展，并讨论最先进的深度度量学习方法。

Dec, 2023

度量嵌入的半监督深度学习

本文提出了一种基于深度度量嵌入的半监督学习算法，利用少量标注数据和无标注数据的相对距离关系约束，得到在欧氏空间内区分力强的分类器，并可用于基于最近邻分类的应用。

Nov, 2016

演讲者验证的大边际 Softmax 损失

本文研究了在说话人验证中，利用不同配置的大边际 softmax 损失、环形损失和最小超球能量准则等损失函数进行训练的方法，结果显示我们的最佳系统在 EER 方面优于基线方法 15％，在 minDCF08 和 minDCF10 方面分别优于基线方法 13％和 33％。

Apr, 2019

通过两个新的基于距离的损失函数，强制执行度量学习中的类别可分性，实现少样本图像分类：SuSana Distance 就是你所需要的

提出了两种不同的损失函数 ——Proto-Triplet Loss 和 ICNN loss，其中考虑了嵌入向量的重要性，并评估了训练后网络获得的嵌入的质量。在实验中，相比其他度量法，这些损失函数在 miniImagenNet 基准测试中将准确率显著提高了 2％，表明这些损失函数有能力使网络更好地推广到以前未见过的类别。

May, 2023

使用三元组网络进行深度度量学习

本文提出了三元组网络模型，通过距离比较来学习有用的表示方法，在多个数据集上的结果显示其比竞争对手孪生网络学习了更好的表示方法，而且还探讨了其作为无监督学习框架的未来可能用途。

Dec, 2014

边际问题：面向说话人识别更具区分性的深度神经网络嵌入

本研究介绍了三种基于边界的深度说话人嵌入学习损失函数，以实现更优的说话人辨识性能。在 VoxCeleb1 和 SITW 两个公共数据集上的实验证明了该方法比传统的交叉熵损失函数 softmax 具有更优的性能，分别在两个数据集上实现了 25%~30% 的等误差率 (EER) 降低，并分别获得了 2.238% EER 和 2.761% EER 的性能表现。

Jun, 2019