自注意力编码与池化在说话人识别中的应用

Aug, 2020

自注意力编码与池化在说话人识别中的应用

Self-attention encoding and pooling for speaker recognition

Pooyan Safari, Miquel India, Javier Hernando

TL;DR本文提出了 Tandem 自注意编码和池化（SAEP）机制来获取短语音说话人的辨别性 embedding，该方法利用了自注意力和位置编码，证明了该方法的有效性是比 ResNet-34，ResNet-50 和 x-vector 更高效的。

Abstract

The computing power of mobile devices limits the end-user applications in terms of storage size, processing, memory and energy consumption. These limitations motivate researchers for the design of more efficient deep models. On the other hand, self-attention networks based on

self-attention networks transformer architecture speaker embedding saep mechanism speaker verification

发现论文，激发创造

基于 TDNN 的说话人验证中的强调通道关注和传递聚合 (ECAPA-TDNN)

本文提出了一种基于统计汇聚、1D Res2Net 模块和 Squeeze-and-Excitation 机制等增强方法的 ECAPA-TDNN 神经网络架构，利用此架构改进了当前流行的 X-Vector 神经网络架构，显著提高了说话人识别性能。

May, 2020

语音识别中的相似性和基于内容的音素自注意力机制

通过提出改进的语音注意力模型，即基于相似性和基于内容两种不同类型语音自注意力模型，本研究通过简单修改增强了模型对语音特征的提取能力，从而在低层替换自我注意力结构后，提高了语音识别性能而不增加延迟和参数大小。

Mar, 2022

非常深的自注意力网络用于端到端语音识别

本研究采用 Transformer 结构，构建端到端的序列到序列模型，其表现超过了之前的端到端模型和传统混合系统，并且在 Switchboard 基准测试中超出了所有之前的端到端 ASR 方法。

Apr, 2019

探索基于注意力图复用的高效 Transformer 神经网络

本文研究了基于 Transformer 的自注意力（SA）提取序列特征方案，在注意力地图重用方面做了全面的研究，并证明了其在加速推理方面具有显著的优势。实验结果表明，注意力地图重用方法在 CPU 和 GPU 平台上可以减少推理延迟。

Jan, 2023

基于 Transformer 的端到端语音识别中简化的自注意力机制

本文提出了一种简化的自我注意力（SSAN）层，用于 Transformer 模型的端到端语音识别任务中，以降低模型复杂度和维护良好性能，并在公共 AISHELL-1、内部 1000 小时和 20000 小时大规模普通话任务上评估了 SSAN 基于 Transformer 模型与传统基于自我注意力的模型。结果表明，我们的提出的 SSAN-based transformer 模型在模型参数上可以实现超过 20% 相对减少，在 AISHELL-1 任务上实现了 6.7% 相对语音识别误差率的降低，而且在 20000 小时的大规模任务中，模型失去识别性能。

May, 2020

深度说话人嵌入的注意统计池化

本文提出了一种基于关注机制统计池化的深度说话人嵌入，在 NIST SRE 2012 和 VoxCeleb 数据集上的评估结果显示，它在说话人验证任务中比传统方法减少了 7.5% 和 8.1% 的等错误率，其适配长期说话特征变化的能力更强。

Mar, 2018

利用持久内存扩展自注意力

该研究提出了一种新的模型，该模型仅由注意力层组成。在具体实现中，加入了持续性存储向量来代替前馈层，这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示，该模型在标准字符和词级语言建模基准上表现出良好的效果。

Jul, 2019

深度说话人嵌入中的注意力机制学习了什么？

本文采用注意力机制实现深度说话人嵌入，将注意力模型作为帧选择器，计算每个帧级特征向量的注意力权重来产生说话人嵌入模型的汇聚层中的语音表征等内容，并在 NIST 演讲者识别评估 (SRE) 任务中进行 9.0％ EER 降低和 3.8％min_Cprimary 降低的实验，同时，还阐述了在深度说话人嵌入和 i 向量系统中结合 DNN 软语音活动检测 (VAD) 与注意力机制，将显著降低 minCprimary。

Sep, 2018

使用多流自注意力和扩张一维卷积的最先进语音识别技术

提出了一种新的神经网络模型体系结构 Multi-Stream Self-Attention，通过进一步处理高度相关的语音传输帧来提高自我关注在语音识别中的效果，并在 LibriSpeech 语料库的测试干净数据集上实现了 2.2％的单词错误率，是迄今为止报告的最佳数字。

Oct, 2019

使用并行计划采样和相对位置嵌入器改进 Transformer 对于语音识别的泛化能力

本文中，我们提出了一种采用 parallel scheduling sampling (PSS) 和 relative positional embedding (RPE) 来帮助 Transformer 泛化到看不见的数据的方法。我们的方法在 10,000 小时普通话自动语音识别任务上，对于短语音有 7% 的相对改进和对于长语音有 70% 的相对改进。

Nov, 2019