CTC 基础语音识别中的中间损失正则化
本文提出了一种方法来放宽 CTC-based 自动语音识别 (ASR) 模型的条件独立性假设,通过在中间层中添加辅助的 CTC loss,使预测更准确,减少了相对词错误率超过 20%。
Apr, 2021
本文提出了一种基于连接主义时间分类(CTC)的分层条件模型,通过在中间层应用辅助 CTC 损失,逐渐增加每个目标子单词序列的词汇量,并使每个级别的序列预测明确地以前一个级别的预测为条件,希望通过利用语言结构的层次结构有效地学习单词级表示,在 LibriSpeech-{100h,960h} 和 TEDLIUM2 上实验结果表明,与标准 CTC 模型和其他竞争模型相比,所提出的模型具有优越性能。
Oct, 2021
本文提出了一种新颖的深度卷积神经网络架构 RCNN-CTC,其通过残差连接和时间分类损失函数,能够同时利用语音信号的时间和光谱结构,并提出了一种 CTC-based 系统组合方法,可以显著减少 WSJ 和腾讯 Chat 数据集上的语音识别误差率。
Feb, 2017
使用分层多任务学习进行基于 CTC 的语音识别,添加辅助任务可提高识别结果表现,不同的实验变量,低资源下标准多任务学习表现优异,最佳结果为采用分层多任务学习与预训练相结合,可将错误率降低 3.4% 绝对值。
Jul, 2018
为了实现自动语音识别的实时应用,并降低计算资源需求,本文结合 Conformer 结构和辅助目标预测方法,提高了基于 Mask-CTC 的端到端自动语音识别系统识别准确性 17.5% 以上,同时使推理速度不下降,结果超越标准 CTC 模型。
Oct, 2020
基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱,本文提出了两种知识转移方法,借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中,相对于不使用外部语言模型的基础模型,我们的方法将字符错误率降低了 16.1%。
Feb, 2022
本文提出一种 Gated Interlayer Collaboration 机制,将文本信息引入语音识别 CTC-based models,提出了一种融合文本表示和声学特征的门单元,并在多个语料库上进行试验,结果表明该方法优于现有的多数基线模型。
May, 2022
本文研究了在端到端语音翻译中采用 CoLaCTC 来替代传统 CTC 所需的真实的词汇标签,以达到减少模型参数,提高计算效率的目的,并通过实验证明,CoLaCTC 在具有可比甚至更好的性能的情况下,能够缩小标签空间达 256,并进一步提高 1.18x 至 1.77x 的训练效率。
Feb, 2023
本研究提出了一个最先进的端到端自动语音识别模型,通过使用联合 CTC 和基于注意力机制的编码解码器网络来学习听和写字,其中编码器是基于 VGG 网络的深度 CNN,CTC 网络和注意力解码器共同训练,通过在波束搜索过程中,将 CTC 预测、注意力解码器预测和单独训练的 LSTM 语言模型相结合,相较于先前的系统,在自发性日语和中文语音上减少了 5-10% 的误差,并且我们的端到端模型击败了传统的混合式 ASR 系统。
Jun, 2017
本研究结合之前未标注的语音数据通过采用 CTC 预训练的两阶段方法生成训练数据,使用 CTC 和 attention Transformer 模型对德语语音识别进行训练,实现了 12.8%的识别错误率,超过了传统混合 DNN / HMM ASR 的 14.4%的基础水平。
Jul, 2020