CTC 基础语音识别中的中间损失正则化

Feb, 2021

CTC 基础语音识别中的中间损失正则化

Intermediate Loss Regularization for CTC-based Speech Recognition

Jaesong Lee, Shinji Watanabe

TL;DR本文提出了一种基于 CTC 目标的自动语音识别（ASR）的简单而高效的辅助损失函数，结合随机深度训练，应用于最近提出的 Conformer 网络，能够在没有语言模型的情况下实现 9.9％的单词错误率和 5.2％的字符错误率。

Abstract

We present a simple and efficient auxiliary loss function for automatic speech recognition (ASR) based on the connectionist temporal classification (CTC) objective. The proposed objective, an intermediate ctc loss

automatic speech recognition connectionist temporal classification ctc loss conformer network stochastic depth training

发现论文，激发创造

基于条件独立假设的 CTC 语音识别方法的中间预测结果条件化松弛

本文提出了一种方法来放宽 CTC-based 自动语音识别 (ASR) 模型的条件独立性假设，通过在中间层中添加辅助的 CTC loss，使预测更准确，减少了相对词错误率超过 20%。

Apr, 2021

层级条件端到端 ASR：CTC 和多粒度次词单元

本文提出了一种基于连接主义时间分类（CTC）的分层条件模型，通过在中间层应用辅助 CTC 损失，逐渐增加每个目标子单词序列的词汇量，并使每个级别的序列预测明确地以前一个级别的预测为条件，希望通过利用语言结构的层次结构有效地学习单词级表示，在 LibriSpeech-{100h，960h} 和 TEDLIUM2 上实验结果表明，与标准 CTC 模型和其他竞争模型相比，所提出的模型具有优越性能。

Oct, 2021

用于自动语音识别的残差卷积 CTC 网络

本文提出了一种新颖的深度卷积神经网络架构 RCNN-CTC，其通过残差连接和时间分类损失函数，能够同时利用语音信号的时间和光谱结构，并提出了一种 CTC-based 系统组合方法，可以显著减少 WSJ 和腾讯 Chat 数据集上的语音识别误差率。

Feb, 2017

基于 CTC 的语音识别的分层多任务学习

使用分层多任务学习进行基于 CTC 的语音识别，添加辅助任务可提高识别结果表现，不同的实验变量，低资源下标准多任务学习表现优异，最佳结果为采用分层多任务学习与预训练相结合，可将错误率降低 3.4% 绝对值。

Jul, 2018

改进的 Mask-CTC 用于非自回归端到端 ASR

为了实现自动语音识别的实时应用，并降低计算资源需求，本文结合 Conformer 结构和辅助目标预测方法，提高了基于 Mask-CTC 的端到端自动语音识别系统识别准确性 17.5% 以上，同时使推理速度不下降，结果超越标准 CTC 模型。

Oct, 2020

基于预训练语言模型的知识迁移，提升基于 CTC 的语音识别

基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱，本文提出了两种知识转移方法，借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中，相对于不使用外部语言模型的基础模型，我们的方法将字符错误率降低了 16.1%。

Feb, 2022

利用门控层间协作提升基于 CTC 的语音识别模型

本文提出一种 Gated Interlayer Collaboration 机制，将文本信息引入语音识别 CTC-based models，提出了一种融合文本表示和声学特征的门单元，并在多个语料库上进行试验，结果表明该方法优于现有的多数基线模型。

May, 2022

通过粗标签实现端到端语音翻译的高效 CTC 正则化

本文研究了在端到端语音翻译中采用 CoLaCTC 来替代传统 CTC 所需的真实的词汇标签，以达到减少模型参数，提高计算效率的目的，并通过实验证明，CoLaCTC 在具有可比甚至更好的性能的情况下，能够缩小标签空间达 256，并进一步提高 1.18x 至 1.77x 的训练效率。

Feb, 2023

基于联合 CTC-Attention 的端到端语音识别的进展，带有深度 CNN 编码器和 RNN-LM

本研究提出了一个最先进的端到端自动语音识别模型，通过使用联合 CTC 和基于注意力机制的编码解码器网络来学习听和写字，其中编码器是基于 VGG 网络的深度 CNN，CTC 网络和注意力解码器共同训练，通过在波束搜索过程中，将 CTC 预测、注意力解码器预测和单独训练的 LSTM 语言模型相结合，相较于先前的系统，在自发性日语和中文语音上减少了 5-10% 的误差，并且我们的端到端模型击败了传统的混合式 ASR 系统。

Jun, 2017

用于德语端到端语音识别的大语料 CTC 分割

本研究结合之前未标注的语音数据通过采用 CTC 预训练的两阶段方法生成训练数据，使用 CTC 和 attention Transformer 模型对德语语音识别进行训练，实现了 12.8％的识别错误率，超过了传统混合 DNN / HMM ASR 的 14.4％的基础水平。

Jul, 2020