基于注意力机制的 Wav2Text 及特征迁移学习

Sep, 2017

基于注意力机制的 Wav2Text 及特征迁移学习

Attention-based Wav2Text with Feature Transfer Learning

Andros Tjandra, Sakriani Sakti, Satoshi Nakamura

TL;DR这篇论文介绍了使用基于注意力机制的编码器 - 解码器模型及特征迁移学习来建立一个自动语音识别的端对端模型，通过处理原始语音信号并不需要设计预定义的对齐和手动建立的模型来直接与文本转录进行交互

Abstract

Conventional automatic speech recognition (ASR) typically performs multi-level pattern recognition tasks that map the acoustic speech waveform into a hierarchy of speech units. But, it is widely known that information loss in the earlier stage can propagate through the later stages. Af

automatic speech recognition end-to-end model attention-based encoder-decoder feature transfer learning raw waveform

发现论文，激发创造

使用 Transformer 模型进行流式自动语音识别

通过使用自我注意力来模拟时间上下文信息，基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统，其可以在每个发音单词之后快速生成输出，因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模，同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上，我们的方案分别达到了 2.8% 和 7.2% 的词错误率，这是我们所知道的这个任务的最好的流式端到端 ASR 成果。

Jan, 2020

长篇语音识别的端到端模型比较

本研究调查和提高端到端模型在长篇转录上的性能。实验比较了不同的端到端模型并证明 RNN-T 模型在这种场景下比注意力模型更加鲁棒，并且使用限制注意力单调性和分段解码算法等两种改进方法，将注意力模型的性能极大提升，达到了和 RNN-T 模型相当的水平。

Nov, 2019

非常深的自注意力网络用于端到端语音识别

本研究采用 Transformer 结构，构建端到端的序列到序列模型，其表现超过了之前的端到端模型和传统混合系统，并且在 Switchboard 基准测试中超出了所有之前的端到端 ASR 方法。

Apr, 2019

多任务学习下的联合 CTC-Attention 基于端到端语音识别

本研究介绍了一种新的方法，使用多任务学习框架中的联合 CTC-attention 模型来改善端到端语音识别的鲁棒性并实现快速收敛，从而减轻对齐问题。实验证明，与 CTC 和 attention-based encoder-decoder 基线相比，在 WSJ 和 CHiME-4 任务中表现出 5.4-14.6％的相对 CER 改进。

Sep, 2016

基于联合 CTC-Attention 的端到端语音识别的进展，带有深度 CNN 编码器和 RNN-LM

本研究提出了一个最先进的端到端自动语音识别模型，通过使用联合 CTC 和基于注意力机制的编码解码器网络来学习听和写字，其中编码器是基于 VGG 网络的深度 CNN，CTC 网络和注意力解码器共同训练，通过在波束搜索过程中，将 CTC 预测、注意力解码器预测和单独训练的 LSTM 语言模型相结合，相较于先前的系统，在自发性日语和中文语音上减少了 5-10% 的误差，并且我们的端到端模型击败了传统的混合式 ASR 系统。

Jun, 2017

基于 Transformer 的在线端到端自动语音识别

本文提出了一种基于 Transformer 的块处理方法来解决整个输入序列必须用于计算自注意力的问题，并结合 MoChA 算法实现了在线自动语音识别系统，实验结果表明，相较于传统的块处理方法，该方法在 WSJ 和 AISHELL-1 数据集上表现更加优异。

Oct, 2019

大型预训练语言模型向端到端语音识别器的知识转移

本文提出了一种方法，通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题，并扩展了注意力机制的解码器和神经音响模式的解码器，以实现错误率的降低。

Feb, 2022

基于序列到序列模型的最先进语音识别技术

本研究通过引入多头注意力机制、使用字片段模型、同步训练、计划采样、标签平滑和最小字符错误率优化等技术手段，将 Listen Attend Spell（LAS）模型应用于语音搜索任务中，从而将错误率从 9.2% 显著降至 5.6%。在听写任务中，该模型的错误率为 4.1%，略优于传统系统的 5.0%。

Dec, 2017

基于 ASR 的端到端神经化分离

本文提出基于 Conformer 的端到端神经口头日记（EEND）模型，该模型利用从自动语音识别（ASR）模型导出的语音输入和特征。通过将 ASR 特征与声学特征相结合，采用新的自注意力机制来建立鲁棒的说话人表示，并使用多任务学习来最小化 ASR 特征的分类损失和日记化损失，将其应用于 Switchboard+SRE 数据集上的两个讲话人英语对话中，相对于基线，利用 ASR 特征的多任务学习最有效，在词汇位置信息下将 DER 降低了 20％。

Feb, 2022

朝向端到端无监督语音识别

介绍一种改进的 wav2vec-U 2.0 方法，通过更好的结构来消除语音处理的需要，并引入自监督目标来实现更好的准确度，从而在不同语言下提高了非监督性识别结果。

Apr, 2022