空白坍塌：压缩 CTC 发射以实现更快的解码

Oct, 2022

空白坍塌：压缩 CTC 发射以实现更快的解码

Blank Collapse: Compressing CTC emission for the faster decoding

Minkyu Jung, Ohhyeok Kwon, Seunghyun Seo, Soonshin Seo

TL;DR本文分析了 CTC 束搜索中的空白标签并提出了一种简单的方法来减少计算量，提高解码速度，实验和理论都证明了该方法的有效性，并且发现该方法在模型准确率更高时效果更加明显，适用于 ASR 领域。

Abstract

connectionist temporal classification (CTC) model is a very efficient method for modeling sequences, especially for speech data. In order to use CTC model as an automatic speech recognition (ASR) task, the

connectionist temporal classification automatic speech recognition beam search decoding blank label librispeech datasets

发现论文，激发创造

神经转换器帧跳过的空白正则化 CTC

本研究提出了两种新的正则化方法，旨在明确鼓励 CTC 中非空白符号的自环，以增加空白符号的比例，从而加速神经转换器的推理，并且实验证明，我们提出的方法可以将神经转换器的帧减少率接近理论边界，提高性能并不损失性能。

May, 2023

使用 CTC 指导加速 RNN-T 训练和推断

通过协同训练的 CTC 模型的指导，我们提出了一种新颖的方法来加速基于递归神经网络传输器 (RNN-T) 的训练和推理过程，并通过在编码器中进行帧降维操作来减少计算量。在 Librispeech 和 SpeechStew 任务上评估表明，新方法可将 RNN-T 推理加速 2.2 倍而不影响单词错误率 (WER)。

Oct, 2022

基于 CTC 的 ASR 模型知识蒸馏与 BERT

本研究提出使用 BERT 来优化基于 CTC 的自动语音识别，通过计算最合理的 CTC 路径获得对齐，并且不影响 CTC 的快速推理速度。实验结果显示，该方法提高了识别准确率而不影响推理速度。

Sep, 2022

基于预训练语言模型的知识迁移，提升基于 CTC 的语音识别

基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱，本文提出了两种知识转移方法，借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中，相对于不使用外部语言模型的基础模型，我们的方法将字符错误率降低了 16.1%。

Feb, 2022

提高非自回归机器翻译的流畅度

本文对非自回归机器翻译模型进行了改进，通过使用额外的特征来提高连接时序分类（CTC）下的模型表达流畅性，并将其与波束搜索解码相结合，仍能保持高速解码能力，具有与自回归模型相媲美的 BLEU 分数。

Apr, 2020

通过粗标签实现端到端语音翻译的高效 CTC 正则化

本文研究了在端到端语音翻译中采用 CoLaCTC 来替代传统 CTC 所需的真实的词汇标签，以达到减少模型参数，提高计算效率的目的，并通过实验证明，CoLaCTC 在具有可比甚至更好的性能的情况下，能够缩小标签空间达 256，并进一步提高 1.18x 至 1.77x 的训练效率。

Feb, 2023

将连接时序汇总添加到 Conformer 中，以提高其解码效率，用于语音识别

本研究提出了一种新的” 连接时序总结 “(CTS) 方法，它可以减少 Conformer 模型中 attention decoder 所需的 frames 数，提高解码效率，并且它能够在不损失 ASR 准确性的情况下降低解码预算，提高识别准确度.

Apr, 2022

具有 CTC 嵌入的语言增强变压器模型用于语音识别

本文介绍了一种基于联合 CTC-Attention 模型的改进方法 —— 语言增强变压器，它通过在训练过程中将改进的 CTC 信息引入解码器，从而使其更加鲁棒，在 AISHELL-1 语音语料库上的实验表明，字符误差率（CER）减少了高达 7％，同时发现在联合 CTC-Attention ASR 模型中，解码器对语言信息比声学信息更敏感。

Oct, 2022

基于 CTC 的非自回归式无文字语音翻译

通过结合预训练、知识蒸馏和先进的非自回归训练技术，如 glancing training 和 non-monotonic latent alignments，基于 CTC 的非自回归模型在直接语音到语音翻译中实现了与自回归模型相当的翻译质量，并提升了 26.81 倍的解码速度。

Jun, 2024

BERT 遇上 CTC：利用预训练掩码语言模型的端到端语音识别新公式

本文提出了 BERT-CTC，一种新的端到端语音识别形式，采用 BERT 来适应连接时间分类（CTC），通过自注意机制，BERT-CTC 关注输入和输出序列的完整上下文，并在保持 CTC 训练效率的同时学习音频和标记表示之间的内部 / 交叉依赖关系，并通过 CTC 解码将 mask-predict 算法与 CTC 解码相结合以迭代地细化输出序列。实验结果表明 BERT-CTC 在说话风格和语言变化的情况下都优于传统方法，并且 BERT-CTC 中的语义表示对下游口语理解任务有益。

Oct, 2022