基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱,本文提出了两种知识转移方法,借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中,相对于不使用外部语言模型的基础模型,我们的方法将字符错误率降低了 16.1%。
Feb, 2022
本研究提出使用 BERT 来优化基于 CTC 的自动语音识别,通过计算最合理的 CTC 路径获得对齐,并且不影响 CTC 的快速推理速度。实验结果显示,该方法提高了识别准确率而不影响推理速度。
Sep, 2022
本文提出了一种方法来放宽 CTC-based 自动语音识别 (ASR) 模型的条件独立性假设,通过在中间层中添加辅助的 CTC loss,使预测更准确,减少了相对词错误率超过 20%。
Apr, 2021
这篇论文探讨了 Connectionist Temporal Classification 在翻译任务中的应用,并提出了 CTC/attention 的联合模型,改进了传统 attention 模型的训练表现和效果。
Oct, 2022
该研究提出了一种新的语音识别模型,使用动态增强和电话对齐网络来优化编码器和解码器,在编码器中引入关注稀有单词和超出词汇表以及解码器中使用子词预测结果,结果表明 F1 可以达到 60%。
为了实现自动语音识别的实时应用,并降低计算资源需求,本文结合 Conformer 结构和辅助目标预测方法,提高了基于 Mask-CTC 的端到端自动语音识别系统识别准确性 17.5% 以上,同时使推理速度不下降,结果超越标准 CTC 模型。
Oct, 2020
本文介绍了一种基于 CTC 的非自回归语音翻译模型,采用预测感知编码方法和跨层注意力方法解决了翻译任务中的条件独立生成和单调对齐等问题,加速比为 5.67 倍,BLEU 分数为 29.5,在 MuST-C ST 基准测试上优于自回归模型和之前的最佳结果。
May, 2023
本文介绍了一种基于联合 CTC-Attention 模型的改进方法 —— 语言增强变压器,它通过在训练过程中将改进的 CTC 信息引入解码器,从而使其更加鲁棒,在 AISHELL-1 语音语料库上的实验表明,字符误差率(CER)减少了高达 7%,同时发现在联合 CTC-Attention ASR 模型中,解码器对语言信息比声学信息更敏感。
本论文介绍了一种 CTC Alignment-based Single-Step Non-Autoregressive Transformer(CASS-NAT)方法,用于自动语音识别,通过利用与 CTC 对齐的语音边界信息提取标记级别音频嵌入来提高推理速度,实现了自监督学习,提出了多个训练策略来改善单词错误率(WER)表现,并探究了基于误差的对齐采样方法以减少训练和测试过程中的对齐不匹配,实验结果表明 CASS-NAT 对于多个 ASR 任务具有接近于 AT 的 WER,同时提供了~24 倍的推理加速,并且未经过语言模型的情况下,实现了新的最高效果。
Apr, 2023
本文提出了一种基于连接主义时间分类(CTC)的分层条件模型,通过在中间层应用辅助 CTC 损失,逐渐增加每个目标子单词序列的词汇量,并使每个级别的序列预测明确地以前一个级别的预测为条件,希望通过利用语言结构的层次结构有效地学习单词级表示,在 LibriSpeech-{100h,960h} 和 TEDLIUM2 上实验结果表明,与标准 CTC 模型和其他竞争模型相比,所提出的模型具有优越性能。
Oct, 2021