深度说话人嵌入的注意统计池化

Mar, 2018

Attentive Statistics Pooling for Deep Speaker Embedding

Koji Okabe, Takafumi Koshinaka, Koichi Shinoda

TL;DR本文提出了一种基于关注机制统计池化的深度说话人嵌入，在 NIST SRE 2012 和 VoxCeleb 数据集上的评估结果显示，它在说话人验证任务中比传统方法减少了 7.5% 和 8.1% 的等错误率，其适配长期说话特征变化的能力更强。

Abstract

This paper proposes attentive statistics pooling for deep speaker embedding in text-independent speaker verification. In conventional speaker embedding, frame-level features are averaged over all the frames of a

speaker verification deep learning attention mechanism statistics pooling long-term variations

发现论文，激发创造

深度说话人嵌入中的注意力机制学习了什么？

本文采用注意力机制实现深度说话人嵌入，将注意力模型作为帧选择器，计算每个帧级特征向量的注意力权重来产生说话人嵌入模型的汇聚层中的语音表征等内容，并在 NIST 演讲者识别评估 (SRE) 任务中进行 9.0％ EER 降低和 3.8％min_Cprimary 降低的实验，同时，还阐述了在深度说话人嵌入和 i 向量系统中结合 DNN 软语音活动检测 (VAD) 与注意力机制，将显著降低 minCprimary。

Sep, 2018

无参考关注评分技术用于说话人验证

该研究是围绕无需参数的注意力评分机制对说话者验证进行研究，其中提出了一种注意力机制，并与传统余弦相似度基准进行对比，结果表明在多个任务的平均 EER 方面，新的评分机制可将 EER 提高 10%。

Mar, 2022

大规模自监督语音表征学习用于自动化说话者验证

使用预训练模型学习到的语音表示作为输入特征，采用可学习权重的平均表示方法，在 Voxceleb 数据集上进行了自我监督训练，实现了自动说话人验证，在三个官方测试中分别取得了 0.537％、0.569％和 1.180％的等误差率（EER），超越了 VoxCeleb Speaker Recognition Challenge 2021 (VoxSRC2021) 中的优胜系统。

Oct, 2021

自注意力编码与池化在说话人识别中的应用

本文提出了 Tandem 自注意编码和池化（SAEP）机制来获取短语音说话人的辨别性 embedding，该方法利用了自注意力和位置编码，证明了该方法的有效性是比 ResNet-34，ResNet-50 和 x-vector 更高效的。

Aug, 2020

用广义池化增强句子嵌入

本篇论文探讨了推广汇聚方法以增强句子嵌入，我们提出了基于向量的多头自注意力池化方法，该方法包括广泛使用的最大池化、平均池化和标量自注意力池化作为特殊情况，该模型通过适当设计的惩罚项减少多头注意力中的冗余，并在自然语言推理、作者配置文件和情感分类等三个不同任务上对提议模型进行了评估，实验表明，所提出的模型相对强的基于句子编码的方法实现了显著的改进，在四个数据集上呈现出最新技术水平。

Jun, 2018

2022 远场说话人验证挑战赛的 SpeakIn 说话人验证系统

本文介绍了 SpeakIn 团队提交的 Far-Field Speaker Verification Challenge 2022（FFSVC2022）任务一和任务二的讲话者验证（SV）系统。我们采用基于 ResNet 和 RepVGG 的架构，采用全局统计汇集结构和 MQMHA 池化结构进行特征汇集，创新性地提出了分阶段迁移学习方法来提高模型性能，解决了领域不匹配问题，并在两个挑战任务中表现出优异的性能。

Sep, 2022

无监督语音表征池化技术基于向量量化

本文介绍了一种新的汇集方法，通过向量量化可以将声学表示压缩为具有相似声学特性的向量，从而通过对各种下游任务进行评估，比较了我们的方法和监督汇集方法。

Apr, 2023

深度说话者特征学习用于文本非依赖型说话者验证

本文研究使用卷积时延深度神经网络结构（CT-DNN）来学习说话人特征，实验结果表明 CT-DNN 可以产生高质量的说话人特征，即使使用单一特征（包括上下文的 0.3 秒），错误拒识率亦可低至 7.68%。

May, 2017

使用说话人表示和自监督上下文嵌入进行口吃检测

本研究通过使用预先训练的深度学习模型提取的语音嵌入，探索了使用 ECAPA-TDNN 和 Wav2Vec2.0 模型进行口吃检测任务的音频表示。相对于仅在有限 SEP-28k 数据集上训练的标准口吃检测系统，本研究在多个传统分类器上获得了 12.08％、28.71％、37.9％的相对改进并进一步证明结合两个嵌入和连接多个层的 Wav2Vec2.0 可进一步提高其性能。

Jun, 2023

Deep Speaker: 一种端到端的神经说话人嵌入系统

Deep Speaker 是一种神经说话人嵌入系统，可以将话语映射到一个超球上，在此球上，通过余弦相似度来度量说话人的相似性。该系统通过采用 ResCNN 和 GRU 架构提取声学特征，然后通过平均池化生成话语级别的说话人嵌入，并使用基于余弦相似度的三元组损失进行训练。实验表明，Deep Speaker 优于基于 DNN 的 i 矢量基线，在三个不同数据集上表现出色，还表明适应普通话训练的模型可以提高对英语说话人的识别精度。

May, 2017