- 一种基于 CTC 对齐的非自回归变压器模型用于端到端自动语音识别
本论文介绍了一种 CTC Alignment-based Single-Step Non-Autoregressive Transformer(CASS-NAT)方法,用于自动语音识别,通过利用与 CTC 对齐的语音边界信息提取标记级别音频 - 软动态时间规整用于多音高估计及拓展
本文介绍了一种处理音乐信息检索中涉及的弱对齐数据的新技术 —— 软动态时间规整(SoftDTW),这是一种可微分的经典动态时间规整(DTW)变体,相较于 CTC 算法在算法形式上更加优雅,能够自然地扩展到实值目标序列,并在多标签问题方面达到 - LiteG2P: 一种快速轻量级高精度的字素到音素转换模型
本文提出了一种名为 LiteG2P 的新颖方法,它将专家知识和神经网络相结合,可快速、轻量且理论上并行化,能用于云端和设备端。实验结果显示,该方法在参数数量上比基于 CTC 的现有方法少 10 倍,在计算量上比基于 Transformers - 利用辅助 CTC 目标提高大规模多语言 ASR 性能
本篇研究探讨自动语音识别中多语言不平衡性的问题,并使用语言标识条件来改善性能,并采用自我监督模型和 Conformer 架构实现相对于先前工作的 28.4% 的 CER 的最新系统。
- ACL通过粗标签实现端到端语音翻译的高效 CTC 正则化
本文研究了在端到端语音翻译中采用 CoLaCTC 来替代传统 CTC 所需的真实的词汇标签,以达到减少模型参数,提高计算效率的目的,并通过实验证明,CoLaCTC 在具有可比甚至更好的性能的情况下,能够缩小标签空间达 256,并进一步提高 - 语音翻译的预训练:CTC 应用最优输运
本文提出了一种通过前置训练解决语音到文本模式间隔问题的方法,其中使用连接主义时间分类损失和最优传输相结合的前置训练,该方法在标准的 CoVoST-2 和 MuST-C 数据集上实现了最新的性能,并与最近的强多任务学习系统表现相当。
- 4D ASR: CTC、Attention、Transducer 和 Mask-Predict 解码器的联合建模
本论文提出了四解码器联合建模 (4D) 的 CTC,关注机制,RNN-T 和掩码预测,旨在通过联合建模提高模型稳健性,在应用场景下轻松切换四个解码器,并通过一次解码方法进一步提高性能。
- CUNI WMT 22 高效翻译赛任务的非自回归系统
我们提交了一个非自回归系统的解决方案,用于 WMT 22 高效翻译共享任务,并使用 12 层 Transformer 模型、连接主义时间分类和强有力的自回归教师模型知识蒸馏数据进行了训练,旨在建立扎实的基线和可靠的评估方法,特别是在测量解码 - 基于句子级的手语识别框架
本文提出了两种解决方案来解决句子级手语识别问题,并通过使用连接主义时间分类(CTC)作为两种模型的分类器层,介绍了 LRCN-based 模型和 Multi-Cue 网络的工作原理。在评估了 RWTH-PHOENIX-Weather 数据集 - LAMASSU:使用神经传导器进行流媒体跨语言语音识别和翻译
本文提出了一种使用神经转导器的流式语言无关的多语言语音识别和翻译模型,采用语言无关的多语言编码器显著提高了模型效果,并探究统一预测和联合网络的优缺点,通过给编码器输入目标 LID 和连接时序分类正则化的训练,不仅显著降低了模型大小,还取得了 - InterMPL: 中间层 CTC 损失的动量伪标签
本文提出了一种利用中间监督的伪标签方法 ——InterMPL,可以应用于半监督学习的自动语音识别系统中,通过引入辅助损失优化伪标签,具有在不需要标签的情况下提高 ASR 性能的能力。实验结果证实,该方法比 MPL 等方法更有效,可使 ASR - 空白坍塌:压缩 CTC 发射以实现更快的解码
本文分析了 CTC 束搜索中的空白标签并提出了一种简单的方法来减少计算量,提高解码速度,实验和理论都证明了该方法的有效性,并且发现该方法在模型准确率更高时效果更加明显,适用于 ASR 领域。
- 使用 CTC 指导加速 RNN-T 训练和推断
通过协同训练的 CTC 模型的指导,我们提出了一种新颖的方法来加速基于递归神经网络传输器 (RNN-T) 的训练和推理过程,并通过在编码器中进行帧降维操作来减少计算量。在 Librispeech 和 SpeechStew 任务上评估表明,新 - EMNLPBERT 遇上 CTC:利用预训练掩码语言模型的端到端语音识别新公式
本文提出了 BERT-CTC,一种新的端到端语音识别形式,采用 BERT 来适应连接时间分类(CTC),通过自注意机制,BERT-CTC 关注输入和输出序列的完整上下文,并在保持 CTC 训练效率的同时学习音频和标记表示之间的内部 / 交叉 - Bayes 风险 CTC:序列到序列任务中可控制的 CTC 对齐
本文提出 Bayes risk CTC 模型来控制序列预测的对齐,并针对不同需求定制损失函数,实现预测路径优选。实验表明 BRCTC 模型能有效减少离线模型的推断成本并显著降低在线系统的整体延迟。
- 基于 CTC 的 ASR 的上下文感知知识迁移策略
该研究利用一种上下文感知的知识传递策略为基于 CTC 的自动语音识别模型注入语言学信息,提高了其性能表现,通过实验证明了该方法在 AISHELL-1 和 AISHELL-2 数据集上的有效性。
- CTC 对齐提高自回归翻译
这篇论文探讨了 Connectionist Temporal Classification 在翻译任务中的应用,并提出了 CTC/attention 的联合模型,改进了传统 attention 模型的训练表现和效果。
- 基于 CTC 的音频语音识别中基于音素掩码的非自回归误差修正
该研究提出了一种基于 CTC 和 PC-MLM 的自动语音识别方法,该方法综合考虑了速度和准确率,并在实验评估中表现出更高的性能。
- 基于 CTC 的 ASR 模型知识蒸馏与 BERT
本研究提出使用 BERT 来优化基于 CTC 的自动语音识别,通过计算最合理的 CTC 路径获得对齐,并且不影响 CTC 的快速推理速度。实验结果显示,该方法提高了识别准确率而不影响推理速度。
- 非自回归机器翻译中的语法多模式研究
该论文针对非自回归翻译模型中存在的语法多模式问题进行了系统研究。作者提出了连接时序分类(CTC)和无序交叉熵(OAXE)损失函数来处理不同范围的语法多模式,并设计了一种新的损失函数来更好地处理实际世界数据集中的复杂语法多模式。