深度说话人嵌入中的注意力机制学习了什么？

Sep, 2018

深度说话人嵌入中的注意力机制学习了什么？

Attention Mechanism in Speaker Recognition: What Does It Learn in Deep Speaker Embedding?

Qiongqiong Wang, Koji Okabe, Kong Aik Lee, Hitoshi Yamamoto, Takafumi Koshinaka

TL;DR本文采用注意力机制实现深度说话人嵌入，将注意力模型作为帧选择器，计算每个帧级特征向量的注意力权重来产生说话人嵌入模型的汇聚层中的语音表征等内容，并在 NIST 演讲者识别评估 (SRE) 任务中进行 9.0％ EER 降低和 3.8％min_Cprimary 降低的实验，同时，还阐述了在深度说话人嵌入和 i 向量系统中结合 DNN 软语音活动检测 (VAD) 与注意力机制，将显著降低 minCprimary。

Abstract

This paper presents an experimental study on deep speaker embedding with an attention mechanism that has been found to be a powerful representation learning technique in →

deep speaker embedding attention mechanism speaker recognition i-vector extractors voice activity detection

发现论文，激发创造

深度说话人嵌入的注意统计池化

本文提出了一种基于关注机制统计池化的深度说话人嵌入，在 NIST SRE 2012 和 VoxCeleb 数据集上的评估结果显示，它在说话人验证任务中比传统方法减少了 7.5% 和 8.1% 的等错误率，其适配长期说话特征变化的能力更强。

Mar, 2018

一种结构化的自注意句子嵌入

本文提出了一种基于自注意力机制的句子嵌入模型，通过使用二维矩阵表示嵌入，并让每行矩阵分别关注句子中不同的部分，提高了可解释性。并在作者分析、情感分类和文本蕴含等三个任务中进行了模型评估，在所有任务中与其它句子嵌入方法相比表现出了显著的性能提升。

Mar, 2017

基于注意力机制的语音识别模型

本研究提出了一种基于改进的注意力机制加上位置感知的模型，解决了长输入音频识别中的问题并且有效降低了音素错误率。

Jun, 2015

基于讲话者注意力的语音情感识别

本文提出了一种基于自训练机制以及 Self Speaker Attention 机制的情感识别方法，该方法在 Att-HAC 和 IEMOCAP 上实现了最新的性能表现。

Apr, 2021

使用自适应和多头自注意力进行语音增强

该论文研究了一种使用辅助说话者感知特征的自适应语音增强方法，从测试话语中直接提取用于适应的说话者表示。采用多任务学习的语音增强和说话人识别，并使用说话人识别分支的最终隐藏层输出作为辅助特征。此外，采用多头自注意力机制捕捉语音和噪声的长期依赖关系。在公共数据集上的实验结果表明，该策略实现了最先进的性能，并在主观质量方面优于传统方法。

Feb, 2020

深度注意力结构化表示学习用于视觉识别

本文介绍了一个关注机制的结构化表示学习框架，可以预测图像类别标签和注意力映射，并在没有其他监督的情况下以端到端的方式进行学习，改进了性能，并在标准场景识别和细粒度分类基准测试中取得了最新成果。

May, 2018

自注意力编码与池化在说话人识别中的应用

本文提出了 Tandem 自注意编码和池化（SAEP）机制来获取短语音说话人的辨别性 embedding，该方法利用了自注意力和位置编码，证明了该方法的有效性是比 ResNet-34，ResNet-50 和 x-vector 更高效的。

Aug, 2020

多层结构化自注意力用于远程监督关系抽取

提出了一种新颖的基于多层结构化自我关注机制的深度神经网络，在多实例学习框架下，利用双向循环神经网络进行远程监督关系抽取，该模型显著优于现有基线模型。

Sep, 2018

深度网络中空间注意机制的实证研究

本篇论文对注意力机制的实现方法进行了实证研究，发现空间注意力及注意力机制中的关键内容对比对深度神经网络的性能影响显著，为注意力机制的进一步研究及设计提供了新的思路和方向。

Apr, 2019

语音识别序列到序列模型中的监督式注意力

本文研究序列到序列模型中注意力机制，通过监督学习的方法对注意力权重和输出对齐进行训练，实验结果表明，对齐学习对模型性能的提升至关重要。

Apr, 2022