一种基于 Transformer 的有效语境模型与时间门池化的说话人辨识

Aug, 2023

一种基于 Transformer 的有效语境模型与时间门池化的说话人辨识

An Effective Transformer-based Contextual Model and Temporal Gate Pooling for Speaker Identification

Harunori Kawano, Sota Shimizu

TL;DR该研究介绍了一种基于 Transformer 的上下文模型应用于演讲者识别的有效的端到端模型，探索了参数与性能之间的关系，并提出了具有强大学习能力的汇聚方法 Temporal Gate Pooling，通过在 VoxCeleb1 的演讲者识别任务上进行评估，取得了 85.9% 的准确率，与具有 317.7M 参数的 wav2vec2 相比具有可比较的精度。

Abstract

wav2vec2 has achieved success in applying transformer architecture and self-supervised learning to speech recognition. Recently, these hav

wav2vec2 transformer self-supervised learning speaker identification temporal gate pooling

发现论文，激发创造

基于 Conformer 的长篇语音流式语言识别的注意力时序池化

本文提出了一种基于 conformer 层的新型语言识别系统，提出一种注意力时序池化机制，可以以递归形式携带长音频的信息，从而可以进行流式推理。此外，本文还研究了两种领域适应方法，以允许适应现有的语言识别模型。我们的实验表明，本文提出的模型拓扑结构明显优于 LSTM 和 transformer，而且注意力时序池化和领域适应可以提高模型的准确性。

Feb, 2022

用卷积上下文来进行 ASR 的变压器

本文提出了用卷积学习输入表示替换变形器的正弦位置嵌入，并阐述其在提供长程关系方面的优势和优化特点，最终实现了在无额外语言模型文本下，librispeech 测试中 4.7％和 12.9％的字错率。

Apr, 2019

对话上下文融合的端到端语音识别中的门控嵌入

本文提出一种新颖的基于门控神经网络的语音识别模型，采用对话上下文 / 词 / 语音嵌入，结合外部词和 / 或句子嵌入来提高对话上下文表示，从而显著提高单词错误率，对 Switchboard 对话语音语料库的实验表明我们的模型优于标准的端到端语音识别模型。

Jun, 2019

基于 Transformer 的端到端多说话人语音识别

本文研究使用 Transformer 模型替代基于循环神经网络的编码器 - 解码器模型，应用于多说话者语音识别和神经束形成器中的遮盖网络，得以有效处理混响信号，并加入外部去混响预处理方法进行对比试验。实验证明，在单通道和多通道任务下，基于 Transformer 的模型相对错误率降低达 40.9% 和 25.6%，在混响环境中的相对错误率降低达 41.5% 和 13.8%。

Feb, 2020

针对 Conformer 转录器语音识别系统的有效紧凑上下文表示

本文提出了一种能够学习到跨话语上下文特征的紧凑的低维度的特征表示方法，并通过在先前话语的历史向量上应用特殊设计的注意力池化层，来优化了基于 Conformer-Transducer 编码器的 ASR 系统，在 1000 小时的 Gigaspeech 语音语料上进行了实验，结果表明相对于仅使用话语内部语境的基线模型，该系统达到了 0.7% 至 0.5% 的绝对词错误率的统计显着降低（相对降低了 4.3% 至 3.1%）的效果。

Jun, 2023

Transformer-Transducer: 自注意力端到端语音识别

本文研究了使用 Transformer 网络来实现端到端语音识别，提出使用 VGGNet 结合因果卷积来降低计算复杂度，同时使用截断的自注意力机制来实现流式处理。在公共数据集 LibriSpeech 上进行实验，该方法相比于基于 LSTM/BLSTM 的神经输入转换器，获得了更好的识别效果，并实现了流式处理。

Oct, 2019

Conformer: 卷积增强变压器（Convolution-augmented Transformer）用于语音识别

本文提出了一种名为 Conformer 的语音识别（Automatic Speech Recognition）模型，结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点，在参数更少的情况下实现对于语音序列的局部和全局依赖的建模，并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%（未使用语言模型）和 1.9%/3.9%（使用外部语言模型）的字错率（Word Error Rate），表现超越了之前的基于 Transformer 和 CNN 的模型。

May, 2020

具有上下文目标表示的视觉、语音和语言自监督高效学习

本文提出 data2vec 2.0 算法，通过利用丰富的上下文目标表示，实现了在几个模态之间进行泛化的快速自监督学习，进而在图像分类、语音识别等领域取得了很好的实验效果。

Dec, 2022

言语情感识别的变压器时代黎明：缩小情绪价值差距

对几种预训练模型，fine-tuned 在情感词汇维度上，作者探究了模型大小、预训练数据、泛化能力、鲁棒性、公平性和效率等方面。结果发现，transformer-based architectures 在 SER 领域表现优越，特别是在情感预测方面。

Mar, 2022

使用 Wav2vec2 和 Whisper 进行演讲者和语言变更检测

通过向标签添加说话者（变化）或语言目标，我们研究了最近为自动语音识别预训练的 transformer 网络对检测语音中的说话者和语言变化的能力。对于 Wav2vec2 预训练网络，我们还研究了是否可以调节说话者变化符号的表示以捕获说话者身份特征。通过多个构建的数据集，我们展示了这些能力的实际应用，并测出了约 10％的说话者识别等误差率和几个百分点的语言检测误差率。

Feb, 2023