深度说话者特征学习用于文本非依赖型说话者验证

May, 2017

深度说话者特征学习用于文本非依赖型说话者验证

Deep Speaker Feature Learning for Text-independent Speaker Verification

Lantian Li, Yixiang Chen, Ying Shi, Zhiyuan Tang, Dong Wang

TL;DR本文研究使用卷积时延深度神经网络结构（CT-DNN）来学习说话人特征，实验结果表明 CT-DNN 可以产生高质量的说话人特征，即使使用单一特征（包括上下文的 0.3 秒），错误拒识率亦可低至 7.68%。

Abstract

Recently deep neural networks (DNNs) have been used to learn speaker features. However, the quality of the learned features is not sufficiently good, so a complex back-end model, either neural or probabilistic, has to be used to address the residual uncertainty when applied to

deep neural networks speaker features ct-dnn speaker verification fisher database

发现论文，激发创造

深度神经网络自动说话者识别中并未学习超音段时间特征

深度神经网络在说话者识别和相关任务中显示出令人印象深刻的结果，然而对于这些结果到底是由什么因素造成的，我们对此仍知之甚少。本文提出并应用了一种新的测试方法，以量化最先进的神经网络在说话者识别中对超分段时间信息建模程度的解释，并且提出了几种强制相应网络更加关注超分段时间信息的手段，评估它们的优点。研究发现，尽管被强制要求，用于说话者识别的多种基于卷积神经网络和循环神经网络的架构并未足够地对超分段时间信息进行建模。这些结果为今后更好地利用完整语音信号的研究提供了重要基础，并揭示了这些网络的内部工作原理，增强了深度学习在语音技术中可解释性的理解。

Nov, 2023

语音和语言识别的统一深度神经网络

本研究使用深度神经网络（DNN）学习特征表示和亚音素后验概率，证明使用单个 DNN 进行说话人和语言识别可以取得显著的性能提升。统一 DNN 方法在 2013 年域自适应挑战说话人识别任务上取得了 55% 的 EER 降低，以及在 NIST 2011 语音识别评估测试中，在 30 秒测试条件下取得 48% 的 EER 降低。

Apr, 2015

跨时延神经网络用于说话人识别

本研究提出交叉时延神经网络（CTDNN）结构来提高当前 TDNN 的性能，用于说话人识别系统中。CTDNN 在许多任务中提供了比原始 TDNN 更显着的改进，如说话人验证和识别任务，尤其在某些情况下将识别精度提高了一倍以上，此外，CTDNN 还能够更好地处理更大批次的训练数据，并在较短的训练时间内更好地利用计算资源。

May, 2020

动态全局滤波器双流时间延迟神经网络在说话人验证中的应用

本文提出 Global Filter for TDNN 和 Dual-Stream TDNN 模型，可在语音辨识方面取得显著的效果，同时减少了参数和复杂性。

Mar, 2023

Deep Speaker: 一种端到端的神经说话人嵌入系统

Deep Speaker 是一种神经说话人嵌入系统，可以将话语映射到一个超球上，在此球上，通过余弦相似度来度量说话人的相似性。该系统通过采用 ResCNN 和 GRU 架构提取声学特征，然后通过平均池化生成话语级别的说话人嵌入，并使用基于余弦相似度的三元组损失进行训练。实验表明，Deep Speaker 优于基于 DNN 的 i 矢量基线，在三个不同数据集上表现出色，还表明适应普通话训练的模型可以提高对英语说话人的识别精度。

May, 2017

深度神经网络中的特征学习 —— 基于语音识别任务的研究

本文研究表明，深度神经网络在语音识别任务中比浅层网络和高斯混合模型表现得更好，这是因为它们具有提取具有鲁棒性的区分性内部表示的能力。此外，我们表明 DNN 不能推广到与训练样本差异显著的测试样本，但是，如果训练数据足够代表性，DNN 的内部特征相对于说话人差异、带宽差异和环境失真是相对稳定的。这种稳定性使得基于 DNN 的识别器在不需要显式模型适应或特征归一化的情况下表现得和基于 GMMs 或浅层网络的现有系统一样好甚至更好。

Jan, 2013

多模态混合深度神经网络用于语音增强

本研究提出了一种新的深度学习模型，结合了视觉提示信息和音频信号，采用双向长短时记忆网络进行特征集成，以提高噪声下语音信号增强的质量。

Jun, 2016

RawNet: 使用原始波形的高级端到端深度神经网络进行文本独立说话人验证

本文提出了一种端到端的系统，该系统包含两个深度神经网络，其一个用于提取语音级别的说话者嵌入，另一个用于后端分类，通过具有预训练方案的模型架构调整可以提取说话者嵌入，并使用附加目标函数简化提取过程，此系统在 VoxCeleb1 数据集上实现了同等于具有数据增强的最先进的 x 向量系统的表现。

Apr, 2019

用于鲁棒性语音识别的非常深的卷积神经网络

本文阐述了使用非常深的卷积神经网络对嘈杂语音进行有效识别的优化策略，并且结合辅助特征共同使用能够进一步提高准确率。在 Aurora 4 任务中，该算法的词错误率达到了 7.09％。

Oct, 2016

面向文本独立说话人识别的帧级别说话人特征向量及端到端模型分析

本文提出了一种基于卷积神经网络（CNN）的说话人识别模型，可以提取鲁棒的说话者嵌入，并通过 TIMIT 数据集对其进行了训练和多个代理任务来研究网络在区分语音输入和声音身份方面的能力，其中发现该网络更擅长区分相似的语音类别而不是单个音素，这一帧级别的表示法还允许我们在帧级别上分析网络，并具有提高说话人识别的其他分析的潜力。

Sep, 2018