自动语音识别中替代 CNN 前端的多视角频率 - 注意力算法

Jun, 2023

自动语音识别中替代 CNN 前端的多视角频率 - 注意力算法

Multi-View Frequency-Attention Alternative to CNN Frontends for Automatic Speech Recognition

Belen Alastruey, Lukas Drude, Jahn Heymann, Simon Wiesler

TL;DR采用 F-Attention 模块替代卷积神经网络前端，在语音识别系统中全局关注频率可以显著减少相对字错率。

Abstract

Convolutional frontends are a typical choice for Transformer-based automatic speech recognition to preprocess the spectrogram, reduce its sequence length, and combine local information in time and frequency similarly. However, the width and height of an audio →

transformer-based automatic speech recognition spectrogram global attention f-attention module word error rate

发现论文，激发创造

Conformer: 卷积增强变压器（Convolution-augmented Transformer）用于语音识别

本文提出了一种名为 Conformer 的语音识别（Automatic Speech Recognition）模型，结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点，在参数更少的情况下实现对于语音序列的局部和全局依赖的建模，并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%（未使用语言模型）和 1.9%/3.9%（使用外部语言模型）的字错率（Word Error Rate），表现超越了之前的基于 Transformer 和 CNN 的模型。

May, 2020

一种针对音频信号处理的内容自适应可学习时频表示

本文提出了可学习的自适应内容前端用于音频信号处理，通过卷积神经网络学习基础函数和权重优化特定任务，同时提出了一种计算内容自适应可学习时频表示的方法，实现了学习有限冲激响应滤波器组，并根据输入信号的内容通过最优滤波器组传递输出信号。

Mar, 2023

高效单声道语音增强的谱注意力融合

在语音增强领域，我们提出了一种称为频谱注意力融合的方法，通过使用卷积模块替换自注意力层，提高了模型的计算效率，从而实现了与先进模型相媲美的结果，但参数规模更小（0.58M）的目标。

Aug, 2023

Transformer-Transducer: 自注意力端到端语音识别

本文研究了使用 Transformer 网络来实现端到端语音识别，提出使用 VGGNet 结合因果卷积来降低计算复杂度，同时使用截断的自注意力机制来实现流式处理。在公共数据集 LibriSpeech 上进行实验，该方法相比于基于 LSTM/BLSTM 的神经输入转换器，获得了更好的识别效果，并实现了流式处理。

Oct, 2019

AST：音频频谱变换器

本文介绍了第一种不依赖卷积操作而采用纯自注意力机制的声音分类模型 ——Audio Spectrogram Transformer（AST），在多个音频分类数据集上取得了新的最优结果。

Apr, 2021

双重注意力神经传输器用于语音识别中高效唤醒词检测

该论文提出了双重注意力神经偏置结构，通过利用 Wake Words 来选择要执行的注意力网络分支，从而提高语音识别任务中的 Wake Words 识别准确性，节省运行时计算成本，并改善了其他方面的性能，同时降低了参数数量。

Apr, 2023

基于 Conformer 的自注意力头多样性分析

本文研究了多头注意力机制在端到端自动语音识别系统中的应用，通过分析多个注意头之间的差异并探究不同的训练方法来提高多头之间的多样性，得出使用促进多头注意头多样性的辅助损失函数更有效，并在 Librispeech 数据集上实现了高达 6% 的相对语音识别准确率提升。

Sep, 2022

直接从波形中学习多尺度特征

本文详细介绍了一种使用卷积滤波器的方法，可以通过减少步幅增加时间分辨率，通过增加滤波器增加频率分辨率以提高语音识别精度。我们同时在多个尺度上学习，从而发现更高效的表示方法，并且相对于基于光谱图的同样参数网络训练，内部语音测试集上的词语错误率下降了 20.7％。

Mar, 2016

全卷积语音识别

本文提出了一种基于卷积神经网络的语音识别方法，相对于传统的基于循环神经网络的模型使用更少的特征提取步骤，并在多项测试中取得了当下最佳的表现。

Dec, 2018

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019