深度说话者特征学习用于文本非依赖型说话者验证
深度神经网络在说话者识别和相关任务中显示出令人印象深刻的结果,然而对于这些结果到底是由什么因素造成的,我们对此仍知之甚少。本文提出并应用了一种新的测试方法,以量化最先进的神经网络在说话者识别中对超分段时间信息建模程度的解释,并且提出了几种强制相应网络更加关注超分段时间信息的手段,评估它们的优点。研究发现,尽管被强制要求,用于说话者识别的多种基于卷积神经网络和循环神经网络的架构并未足够地对超分段时间信息进行建模。这些结果为今后更好地利用完整语音信号的研究提供了重要基础,并揭示了这些网络的内部工作原理,增强了深度学习在语音技术中可解释性的理解。
Nov, 2023
本研究使用深度神经网络(DNN)学习特征表示和亚音素后验概率,证明使用单个 DNN 进行说话人和语言识别可以取得显著的性能提升。统一 DNN 方法在 2013 年域自适应挑战说话人识别任务上取得了 55% 的 EER 降低,以及在 NIST 2011 语音识别评估测试中,在 30 秒测试条件下取得 48% 的 EER 降低。
Apr, 2015
本研究提出交叉时延神经网络(CTDNN)结构来提高当前 TDNN 的性能,用于说话人识别系统中。CTDNN 在许多任务中提供了比原始 TDNN 更显着的改进,如说话人验证和识别任务,尤其在某些情况下将识别精度提高了一倍以上,此外,CTDNN 还能够更好地处理更大批次的训练数据,并在较短的训练时间内更好地利用计算资源。
May, 2020
本文提出 Global Filter for TDNN 和 Dual-Stream TDNN 模型,可在语音辨识方面取得显著的效果,同时减少了参数和复杂性。
Mar, 2023
Deep Speaker 是一种神经说话人嵌入系统,可以将话语映射到一个超球上,在此球上,通过余弦相似度来度量说话人的相似性。该系统通过采用 ResCNN 和 GRU 架构提取声学特征,然后通过平均池化生成话语级别的说话人嵌入,并使用基于余弦相似度的三元组损失进行训练。实验表明,Deep Speaker 优于基于 DNN 的 i 矢量基线,在三个不同数据集上表现出色,还表明适应普通话训练的模型可以提高对英语说话人的识别精度。
May, 2017
本文研究表明,深度神经网络在语音识别任务中比浅层网络和高斯混合模型表现得更好,这是因为它们具有提取具有鲁棒性的区分性内部表示的能力。此外,我们表明 DNN 不能推广到与训练样本差异显著的测试样本,但是,如果训练数据足够代表性,DNN 的内部特征相对于说话人差异、带宽差异和环境失真是相对稳定的。这种稳定性使得基于 DNN 的识别器在不需要显式模型适应或特征归一化的情况下表现得和基于 GMMs 或浅层网络的现有系统一样好甚至更好。
Jan, 2013
本文提出了一种端到端的系统,该系统包含两个深度神经网络,其一个用于提取语音级别的说话者嵌入,另一个用于后端分类,通过具有预训练方案的模型架构调整可以提取说话者嵌入,并使用附加目标函数简化提取过程,此系统在 VoxCeleb1 数据集上实现了同等于具有数据增强的最先进的 x 向量系统的表现。
Apr, 2019
本文阐述了使用非常深的卷积神经网络对嘈杂语音进行有效识别的优化策略,并且结合辅助特征共同使用能够进一步提高准确率。在 Aurora 4 任务中,该算法的词错误率达到了 7.09%。
Oct, 2016
本文提出了一种基于卷积神经网络(CNN)的说话人识别模型,可以提取鲁棒的说话者嵌入,并通过 TIMIT 数据集对其进行了训练和多个代理任务来研究网络在区分语音输入和声音身份方面的能力,其中发现该网络更擅长区分相似的语音类别而不是单个音素,这一帧级别的表示法还允许我们在帧级别上分析网络,并具有提高说话人识别的其他分析的潜力。
Sep, 2018