自动语音识别中替代 CNN 前端的多视角频率 - 注意力算法
本文提出了一种名为 Conformer 的语音识别(Automatic Speech Recognition)模型,结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点,在参数更少的情况下实现对于语音序列的局部和全局依赖的建模,并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%(未使用语言模型)和 1.9%/3.9%(使用外部语言模型)的字错率(Word Error Rate),表现超越了之前的基于 Transformer 和 CNN 的模型。
May, 2020
本文提出了可学习的自适应内容前端用于音频信号处理,通过卷积神经网络学习基础函数和权重优化特定任务,同时提出了一种计算内容自适应可学习时频表示的方法,实现了学习有限冲激响应滤波器组,并根据输入信号的内容通过最优滤波器组传递输出信号。
Mar, 2023
在语音增强领域,我们提出了一种称为频谱注意力融合的方法,通过使用卷积模块替换自注意力层,提高了模型的计算效率,从而实现了与先进模型相媲美的结果,但参数规模更小(0.58M)的目标。
Aug, 2023
本文研究了使用 Transformer 网络来实现端到端语音识别,提出使用 VGGNet 结合因果卷积来降低计算复杂度,同时使用截断的自注意力机制来实现流式处理。在公共数据集 LibriSpeech 上进行实验,该方法相比于基于 LSTM/BLSTM 的神经输入转换器,获得了更好的识别效果,并实现了流式处理。
Oct, 2019
本文介绍了第一种不依赖卷积操作而采用纯自注意力机制的声音分类模型 ——Audio Spectrogram Transformer(AST),在多个音频分类数据集上取得了新的最优结果。
Apr, 2021
该论文提出了双重注意力神经偏置结构,通过利用 Wake Words 来选择要执行的注意力网络分支,从而提高语音识别任务中的 Wake Words 识别准确性,节省运行时计算成本,并改善了其他方面的性能,同时降低了参数数量。
Apr, 2023
本文研究了多头注意力机制在端到端自动语音识别系统中的应用,通过分析多个注意头之间的差异并探究不同的训练方法来提高多头之间的多样性,得出使用促进多头注意头多样性的辅助损失函数更有效,并在 Librispeech 数据集上实现了高达 6% 的相对语音识别准确率提升。
Sep, 2022
本文详细介绍了一种使用卷积滤波器的方法,可以通过减少步幅增加时间分辨率,通过增加滤波器增加频率分辨率以提高语音识别精度。我们同时在多个尺度上学习,从而发现更高效的表示方法,并且相对于基于光谱图的同样参数网络训练,内部语音测试集上的词语错误率下降了 20.7%。
Mar, 2016
本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech,它在语音质量、稳定性、可控性和速度方面均具备相应优点。
May, 2019