基于 CTC 的非自回归语音翻译
通过结合预训练、知识蒸馏和先进的非自回归训练技术,如 glancing training 和 non-monotonic latent alignments,基于 CTC 的非自回归模型在直接语音到语音翻译中实现了与自回归模型相当的翻译质量,并提升了 26.81 倍的解码速度。
Jun, 2024
本论文介绍了一种 CTC Alignment-based Single-Step Non-Autoregressive Transformer(CASS-NAT)方法,用于自动语音识别,通过利用与 CTC 对齐的语音边界信息提取标记级别音频嵌入来提高推理速度,实现了自监督学习,提出了多个训练策略来改善单词错误率(WER)表现,并探究了基于误差的对齐采样方法以减少训练和测试过程中的对齐不匹配,实验结果表明 CASS-NAT 对于多个 ASR 任务具有接近于 AT 的 WER,同时提供了~24 倍的推理加速,并且未经过语言模型的情况下,实现了新的最高效果。
Apr, 2023
我们提出了一种新颖的非自回归生成框架用于同时语音翻译 (NAST-S2X),它将语音到文本和语音到语音任务整合到统一的端到端框架中。实验结果表明,NAST-S2X 在语音到文本和语音到语音任务中优于现有模型,在不到 3 秒的延迟内实现了高质量的同时口译,并在离线生成中提供了 28 倍的解码加速。
Jun, 2024
这篇论文探讨了 Connectionist Temporal Classification 在翻译任务中的应用,并提出了 CTC/attention 的联合模型,改进了传统 attention 模型的训练表现和效果。
Oct, 2022
本文对非自回归机器翻译模型进行了改进,通过使用额外的特征来提高连接时序分类(CTC)下的模型表达流畅性,并将其与波束搜索解码相结合,仍能保持高速解码能力,具有与自回归模型相媲美的 BLEU 分数。
Apr, 2020
通过使用 CTC loss 进行微调 PMLM 模型、采用 MASK 插入方案进行上采样、使用嵌入蒸馏方法进一步提高性能,使得非自回归模型获得了更好的翻译质量和加速,并在多个数据集上优于自回归模型
Jun, 2023
使用连接主义时间分类(CTC)构建非自回归语音到文本翻译模型,并将基于 CTC 的自动语音识别作为辅助任务来提高性能。通过对 CTC 的重新排序能力进行分析,使用肯德尔 - 塔距离作为定量指标并提供梯度可视化,进一步探索了非自回归语音翻译的研究方向。
May, 2021
为了实现自动语音识别的实时应用,并降低计算资源需求,本文结合 Conformer 结构和辅助目标预测方法,提高了基于 Mask-CTC 的端到端自动语音识别系统识别准确性 17.5% 以上,同时使推理速度不下降,结果超越标准 CTC 模型。
Oct, 2020
该研究利用一种上下文感知的知识传递策略为基于 CTC 的自动语音识别模型注入语言学信息,提高了其性能表现,通过实验证明了该方法在 AISHELL-1 和 AISHELL-2 数据集上的有效性。
Oct, 2022
本文提出了一种基于非自回归模型 (NAR) 的高效端到端语音翻译 (E2E-ST) 系统 ——Orthros,使用条件掩蔽语言模型 (CMLM) 和连接主义时间分类 (CTC) 模型作为 NAR 解码器,并采用两种训练方法来增强 CMLM 解码器。实验表明,在三个基准数据集及六个语言方向上,Orthros-CTC 以 Conformer 编码器为基础的模型在保证翻译质量的前提下,将解码速度提高了 3.63 倍。
Sep, 2021