说话人识别的统一超球嵌入

Jul, 2018

Unified Hypersphere Embedding for Speaker Recognition

Mahdi Hajibabaei, Dengxin Dai

TL;DR通过增加训练和测试数据的方式，寻找嵌入空间维度的最优值，使用更有区分性的损失函数来提高文本无关说话人识别系统的识别和验证准确性，在不增加额外数据或使用更深和更复杂的模型的情况下，实验结果表明：（i）重复和随机时间翻转可以将预测误差降低高达 18%。（ii）较低维度嵌入更适合进行验证。（iii）使用所提出的逻辑边距损失函数导致具有最先进的标识和竞争验证准确性的统一嵌入。

Abstract

Incremental improvements in accuracy of convolutional neural networks are usually achieved through use of deeper and more complex models trained on larger datasets. However, enlarging dataset and models increases the computation and storage costs and cannot be done indefinitely. In thi

speaker recognition convolutional neural networks embedding loss function verification accuracy

发现论文，激发创造

Deep Speaker: 一种端到端的神经说话人嵌入系统

Deep Speaker 是一种神经说话人嵌入系统，可以将话语映射到一个超球上，在此球上，通过余弦相似度来度量说话人的相似性。该系统通过采用 ResCNN 和 GRU 架构提取声学特征，然后通过平均池化生成话语级别的说话人嵌入，并使用基于余弦相似度的三元组损失进行训练。实验表明，Deep Speaker 优于基于 DNN 的 i 矢量基线，在三个不同数据集上表现出色，还表明适应普通话训练的模型可以提高对英语说话人的识别精度。

May, 2017

边际问题：面向说话人识别更具区分性的深度神经网络嵌入

本研究介绍了三种基于边界的深度说话人嵌入学习损失函数，以实现更优的说话人辨识性能。在 VoxCeleb1 和 SITW 两个公共数据集上的实验证明了该方法比传统的交叉熵损失函数 softmax 具有更优的性能，分别在两个数据集上实现了 25%~30% 的等误差率 (EER) 降低，并分别获得了 2.238% EER 和 2.761% EER 的性能表现。

Jun, 2019

探讨 VoxCeleb：环境不变语音说话者识别

通过对话者识别中未使用的 ' 视频 ' 信息进行环境对抗学习框架，我们成功实现了能够在训练期间有效学习讲话者判别性和环境不变嵌入的网络，该方法在 VoxCeleb 数据集上得到验证，证明基准测试中的性能显著提高。

Oct, 2019

使用最先进的神经说话人嵌入进行零样本多说话人文本转语音

研究了使用多说话人建模中的神经发音人嵌入对零样本适应的影响，发现使用可学习字典编码的说话人嵌入，能够在说话人验证任务中提高等误差率，在未知说话人使用时提高零样本适应性，并提高端到端语音合成的说话人相似性和自然度。

Oct, 2019

改进和分析用于 ASR 的神经说话人嵌入

本文研究了将神经说话者嵌入用于一个 ASR 系统，并通过基于 Conformer 的混合 HMM ASR 系统，在使用加权简单加法（Weighted-Simple-Add）集成方法时，展示了改进的嵌入提取流程，通过比较和分析不同的说话者嵌入来获得声学模型的改进，最终将最佳的 Conformer-based 混合 ASR 系统与说话者嵌入结合起来，获得了 9.0％的 WER 并在 Hub5'00 和 Hub5'01 上进行训练。

Jan, 2023

辩护度量学习在说话人识别中的应用

本文针对未知说话人的 “开放式” 说话人识别问题，提出了一种度量学习的方法，该方法使用紧凑的嵌入来表示语音信息，并对最流行的损失函数进行了广泛评估，结果表明该方法优于现有的先进方法。

Mar, 2020

基于质心的深度度量学习用于说话人识别

本研究通过利用神经网络将话语映射到一个距离反映说话人相似度的空间中的讲话人嵌入模型，优化了一种使用典型网络损失（PNL）的讲话人嵌入模型，从而优于基于三元组损失的模型，在见过和没见过讲话人的情况下，都能够在讲话人验证和识别任务中取得更好的性能

Feb, 2019

面向文本独立说话人识别的帧级别说话人特征向量及端到端模型分析

本文提出了一种基于卷积神经网络（CNN）的说话人识别模型，可以提取鲁棒的说话者嵌入，并通过 TIMIT 数据集对其进行了训练和多个代理任务来研究网络在区分语音输入和声音身份方面的能力，其中发现该网络更擅长区分相似的语音类别而不是单个音素，这一帧级别的表示法还允许我们在帧级别上分析网络，并具有提高说话人识别的其他分析的潜力。

Sep, 2018

用于解耦合报到和运行阶段说话人识别模型的训练后嵌入对齐

使用轻量级神经网络将两个独立模型的嵌入式映射到共享的说话者嵌入空间，以实现非对称说话者识别系统，并在大规模数据集上训练的模型中，在共享的说话者得分空间中显著优于余弦打分。

Jan, 2024

基于深度神经网络的短语音验证 i-vector 映射

本文提出了两种新的非线性映射方法，使用 DNN 模型将从短语音中提取的 i-vector 映射到相应的长语音 i-vector，实现了从短语音中还原丢失信息和减少 i-vector 的方差，可在说话人识别中实现 28.43％的最大相对改进。

Oct, 2018