空白坍塌:压缩 CTC 发射以实现更快的解码
本研究提出了两种新的正则化方法,旨在明确鼓励 CTC 中非空白符号的自环,以增加空白符号的比例,从而加速神经转换器的推理,并且实验证明,我们提出的方法可以将神经转换器的帧减少率接近理论边界,提高性能并不损失性能。
May, 2023
通过协同训练的 CTC 模型的指导,我们提出了一种新颖的方法来加速基于递归神经网络传输器 (RNN-T) 的训练和推理过程,并通过在编码器中进行帧降维操作来减少计算量。在 Librispeech 和 SpeechStew 任务上评估表明,新方法可将 RNN-T 推理加速 2.2 倍而不影响单词错误率 (WER)。
Oct, 2022
本研究提出使用 BERT 来优化基于 CTC 的自动语音识别,通过计算最合理的 CTC 路径获得对齐,并且不影响 CTC 的快速推理速度。实验结果显示,该方法提高了识别准确率而不影响推理速度。
Sep, 2022
基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱,本文提出了两种知识转移方法,借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中,相对于不使用外部语言模型的基础模型,我们的方法将字符错误率降低了 16.1%。
Feb, 2022
本文对非自回归机器翻译模型进行了改进,通过使用额外的特征来提高连接时序分类(CTC)下的模型表达流畅性,并将其与波束搜索解码相结合,仍能保持高速解码能力,具有与自回归模型相媲美的 BLEU 分数。
Apr, 2020
本文研究了在端到端语音翻译中采用 CoLaCTC 来替代传统 CTC 所需的真实的词汇标签,以达到减少模型参数,提高计算效率的目的,并通过实验证明,CoLaCTC 在具有可比甚至更好的性能的情况下,能够缩小标签空间达 256,并进一步提高 1.18x 至 1.77x 的训练效率。
Feb, 2023
本研究提出了一种新的” 连接时序总结 “(CTS) 方法,它可以减少 Conformer 模型中 attention decoder 所需的 frames 数,提高解码效率,并且它能够在不损失 ASR 准确性的情况下降低解码预算,提高识别准确度.
Apr, 2022
本文介绍了一种基于联合 CTC-Attention 模型的改进方法 —— 语言增强变压器,它通过在训练过程中将改进的 CTC 信息引入解码器,从而使其更加鲁棒,在 AISHELL-1 语音语料库上的实验表明,字符误差率(CER)减少了高达 7%,同时发现在联合 CTC-Attention ASR 模型中,解码器对语言信息比声学信息更敏感。
Oct, 2022
通过结合预训练、知识蒸馏和先进的非自回归训练技术,如 glancing training 和 non-monotonic latent alignments,基于 CTC 的非自回归模型在直接语音到语音翻译中实现了与自回归模型相当的翻译质量,并提升了 26.81 倍的解码速度。
Jun, 2024
本文提出了 BERT-CTC,一种新的端到端语音识别形式,采用 BERT 来适应连接时间分类(CTC),通过自注意机制,BERT-CTC 关注输入和输出序列的完整上下文,并在保持 CTC 训练效率的同时学习音频和标记表示之间的内部 / 交叉依赖关系,并通过 CTC 解码将 mask-predict 算法与 CTC 解码相结合以迭代地细化输出序列。实验结果表明 BERT-CTC 在说话风格和语言变化的情况下都优于传统方法,并且 BERT-CTC 中的语义表示对下游口语理解任务有益。
Oct, 2022