自注意力编码与池化在说话人识别中的应用
本文提出了一种基于统计汇聚、1D Res2Net 模块和 Squeeze-and-Excitation 机制等增强方法的 ECAPA-TDNN 神经网络架构,利用此架构改进了当前流行的 X-Vector 神经网络架构,显著提高了说话人识别性能。
May, 2020
通过提出改进的语音注意力模型,即基于相似性和基于内容两种不同类型语音自注意力模型,本研究通过简单修改增强了模型对语音特征的提取能力,从而在低层替换自我注意力结构后,提高了语音识别性能而不增加延迟和参数大小。
Mar, 2022
本研究采用 Transformer 结构,构建端到端的序列到序列模型,其表现超过了之前的端到端模型和传统混合系统,并且在 Switchboard 基准测试中超出了所有之前的端到端 ASR 方法。
Apr, 2019
本文研究了基于 Transformer 的自注意力(SA)提取序列特征方案,在注意力地图重用方面做了全面的研究,并证明了其在加速推理方面具有显著的优势。实验结果表明,注意力地图重用方法在 CPU 和 GPU 平台上可以减少推理延迟。
Jan, 2023
本文提出了一种简化的自我注意力(SSAN)层,用于 Transformer 模型的端到端语音识别任务中,以降低模型复杂度和维护良好性能,并在公共 AISHELL-1、内部 1000 小时和 20000 小时大规模普通话任务上评估了 SSAN 基于 Transformer 模型与传统基于自我注意力的模型。结果表明,我们的提出的 SSAN-based transformer 模型在模型参数上可以实现超过 20% 相对减少,在 AISHELL-1 任务上实现了 6.7% 相对语音识别误差率的降低,而且在 20000 小时的大规模任务中,模型失去识别性能。
May, 2020
本文提出了一种基于关注机制统计池化的深度说话人嵌入,在 NIST SRE 2012 和 VoxCeleb 数据集上的评估结果显示,它在说话人验证任务中比传统方法减少了 7.5% 和 8.1% 的等错误率,其适配长期说话特征变化的能力更强。
Mar, 2018
该研究提出了一种新的模型,该模型仅由注意力层组成。在具体实现中,加入了持续性存储向量来代替前馈层,这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示,该模型在标准字符和词级语言建模基准上表现出良好的效果。
Jul, 2019
本文采用注意力机制实现深度说话人嵌入,将注意力模型作为帧选择器,计算每个帧级特征向量的注意力权重来产生说话人嵌入模型的汇聚层中的语音表征等内容,并在 NIST 演讲者识别评估 (SRE) 任务中进行 9.0% EER 降低和 3.8%min_Cprimary 降低的实验,同时,还阐述了在深度说话人嵌入和 i 向量系统中结合 DNN 软语音活动检测 (VAD) 与注意力机制,将显著降低 minCprimary。
Sep, 2018
提出了一种新的神经网络模型体系结构 Multi-Stream Self-Attention,通过进一步处理高度相关的语音传输帧来提高自我关注在语音识别中的效果,并在 LibriSpeech 语料库的测试干净数据集上实现了 2.2%的单词错误率,是迄今为止报告的最佳数字。
Oct, 2019
本文中,我们提出了一种采用 parallel scheduling sampling (PSS) 和 relative positional embedding (RPE) 来帮助 Transformer 泛化到看不见的数据的方法。我们的方法在 10,000 小时普通话自动语音识别任务上,对于短语音有 7% 的相对改进和对于长语音有 70% 的相对改进。
Nov, 2019