Deep Speaker: 一种端到端的神经说话人嵌入系统

May, 2017

Deep Speaker: 一种端到端的神经说话人嵌入系统

Deep Speaker: an End-to-End Neural Speaker Embedding System

Chao Li, Xiaokong Ma, Bing Jiang, Xiangang Li, Xuewei Zhang...

TL;DRDeep Speaker 是一种神经说话人嵌入系统，可以将话语映射到一个超球上，在此球上，通过余弦相似度来度量说话人的相似性。该系统通过采用 ResCNN 和 GRU 架构提取声学特征，然后通过平均池化生成话语级别的说话人嵌入，并使用基于余弦相似度的三元组损失进行训练。实验表明，Deep Speaker 优于基于 DNN 的 i 矢量基线，在三个不同数据集上表现出色，还表明适应普通话训练的模型可以提高对英语说话人的识别精度。

Abstract

We present deep speaker, a neural speaker embedding system that maps utterances to a hypersphere where speaker similarity is measured by cosine similarity. The embeddings generated by →

deep speaker neural speaker embedding speaker identification speaker verification cosine similarity

发现论文，激发创造

说话人识别的统一超球嵌入

通过增加训练和测试数据的方式，寻找嵌入空间维度的最优值，使用更有区分性的损失函数来提高文本无关说话人识别系统的识别和验证准确性，在不增加额外数据或使用更深和更复杂的模型的情况下，实验结果表明：（i）重复和随机时间翻转可以将预测误差降低高达 18%。（ii）较低维度嵌入更适合进行验证。（iii）使用所提出的逻辑边距损失函数导致具有最先进的标识和竞争验证准确性的统一嵌入。

Jul, 2018

深度说话者特征学习用于文本非依赖型说话者验证

本文研究使用卷积时延深度神经网络结构（CT-DNN）来学习说话人特征，实验结果表明 CT-DNN 可以产生高质量的说话人特征，即使使用单一特征（包括上下文的 0.3 秒），错误拒识率亦可低至 7.68%。

May, 2017

使用最先进的神经说话人嵌入进行零样本多说话人文本转语音

研究了使用多说话人建模中的神经发音人嵌入对零样本适应的影响，发现使用可学习字典编码的说话人嵌入，能够在说话人验证任务中提高等误差率，在未知说话人使用时提高零样本适应性，并提高端到端语音合成的说话人相似性和自然度。

Oct, 2019

基于质心的深度度量学习用于说话人识别

本研究通过利用神经网络将话语映射到一个距离反映说话人相似度的空间中的讲话人嵌入模型，优化了一种使用典型网络损失（PNL）的讲话人嵌入模型，从而优于基于三元组损失的模型，在见过和没见过讲话人的情况下，都能够在讲话人验证和识别任务中取得更好的性能

Feb, 2019

深度说话人嵌入架构中的残差信息

本文介绍了针对六个最新高性能的 DNN 体系结构提取出的演讲者嵌入的分析，重点关注它们能够从语音信号中真正区分讲话者身份的程度。结果表明，这些嵌入的区分能力非常高，但在所有已分析的体系结构中，残余信息仍呈现为与录音条件、语言内容和话语持续时间高度相关的形式。

Feb, 2023

深度言语：扩大端到端语音识别

使用端到端深度学习开发的演讲识别系统：不需要手工设计组件来模拟背景噪声、混响或者发言人差异，取而代之的是直接学习一个对这些影响具有鲁棒性的函数的方法，其关键是优化的 RNN 训练系统以及一组新的数据综合技术，该系统在 Switchboard Hub5'00 测试集上取得了 16.0% 的错误率，优于以前的成果，并且与广泛使用的最先进的商业演讲系统相比，Deep Speech 处理具有挑战性的嘈杂环境的能力更加出色。

Dec, 2014

改进和分析用于 ASR 的神经说话人嵌入

本文研究了将神经说话者嵌入用于一个 ASR 系统，并通过基于 Conformer 的混合 HMM ASR 系统，在使用加权简单加法（Weighted-Simple-Add）集成方法时，展示了改进的嵌入提取流程，通过比较和分析不同的说话者嵌入来获得声学模型的改进，最终将最佳的 Conformer-based 混合 ASR 系统与说话者嵌入结合起来，获得了 9.0％的 WER 并在 Hub5'00 和 Hub5'01 上进行训练。

Jan, 2023

在端到端神经语音分离中利用说话者嵌入识别双方讲话的情景

本研究通过将发言者信息嵌入到端到端系统中，提高了发言者辨识能力，并保持了处理语音重叠的优势，通过多种方法将这些嵌入与声学特征相结合。同时，对处理静默帧、提取发言者嵌入的窗口长度和变压器编码器尺寸进行了深入分析。在 CallHome 数据集上对双发言者分析任务进行了全面评估，结果表明相对于基准端到端模型，发现有了显著的降低对话错误率，相对提高了 10.78%。

Jul, 2024

基于深度神经网络的短语音验证 i-vector 映射

本文提出了两种新的非线性映射方法，使用 DNN 模型将从短语音中提取的 i-vector 映射到相应的长语音 i-vector，实现了从短语音中还原丢失信息和减少 i-vector 的方差，可在说话人识别中实现 28.43％的最大相对改进。

Oct, 2018

VoxCeleb2：深度语音说话人识别

本文介绍了一个大规模的音频 - 视觉说话人识别数据集，用于使用卷积神经网络模型和训练策略在各种条件下有效识别声音中的身份，并展示出比以前的成果更高的性能表现。

Jun, 2018