基于 CTC 的非自回归语音翻译

ACLMay, 2023

CTC-based Non-autoregressive Speech Translation

Chen Xu, Xiaoqian Liu, Xiaowen Liu, Qingxuan Sun, Yuhao Zhang...

TL;DR本文介绍了一种基于 CTC 的非自回归语音翻译模型，采用预测感知编码方法和跨层注意力方法解决了翻译任务中的条件独立生成和单调对齐等问题，加速比为 5.67 倍，BLEU 分数为 29.5，在 MuST-C ST 基准测试上优于自回归模型和之前的最佳结果。

Abstract

Combining end-to-end speech translation (ST) and non-autoregressive (NAR) generation is promising in language and speech processing for their advantages of less error propagation and low latency. In this paper, we investigate the potential of →

speech translation non-autoregressive generation connectionist temporal classification cross-layer attention curriculum learning

发现论文，激发创造

基于 CTC 的非自回归式无文字语音翻译

通过结合预训练、知识蒸馏和先进的非自回归训练技术，如 glancing training 和 non-monotonic latent alignments，基于 CTC 的非自回归模型在直接语音到语音翻译中实现了与自回归模型相当的翻译质量，并提升了 26.81 倍的解码速度。

Jun, 2024

一种基于 CTC 对齐的非自回归变压器模型用于端到端自动语音识别

本论文介绍了一种 CTC Alignment-based Single-Step Non-Autoregressive Transformer（CASS-NAT）方法，用于自动语音识别，通过利用与 CTC 对齐的语音边界信息提取标记级别音频嵌入来提高推理速度，实现了自监督学习，提出了多个训练策略来改善单词错误率（WER）表现，并探究了基于误差的对齐采样方法以减少训练和测试过程中的对齐不匹配，实验结果表明 CASS-NAT 对于多个 ASR 任务具有接近于 AT 的 WER，同时提供了～24 倍的推理加速，并且未经过语言模型的情况下，实现了新的最高效果。

Apr, 2023

一种非自回归生成框架用于端到端同步任意语音翻译

我们提出了一种新颖的非自回归生成框架用于同时语音翻译 (NAST-S2X)，它将语音到文本和语音到语音任务整合到统一的端到端框架中。实验结果表明，NAST-S2X 在语音到文本和语音到语音任务中优于现有模型，在不到 3 秒的延迟内实现了高质量的同时口译，并在离线生成中提供了 28 倍的解码加速。

Jun, 2024

CTC 对齐提高自回归翻译

这篇论文探讨了 Connectionist Temporal Classification 在翻译任务中的应用，并提出了 CTC/attention 的联合模型，改进了传统 attention 模型的训练表现和效果。

Oct, 2022

提高非自回归机器翻译的流畅度

本文对非自回归机器翻译模型进行了改进，通过使用额外的特征来提高连接时序分类（CTC）下的模型表达流畅性，并将其与波束搜索解码相结合，仍能保持高速解码能力，具有与自回归模型相媲美的 BLEU 分数。

Apr, 2020

使用预训练语言模型、嵌入蒸馏和上采样策略改善 CTC 非自回归翻译质量

通过使用 CTC loss 进行微调 PMLM 模型、采用 MASK 插入方案进行上采样、使用嵌入蒸馏方法进一步提高性能，使得非自回归模型获得了更好的翻译质量和加速，并在多个数据集上优于自回归模型

Jun, 2023

探究基于 CTC 的非自回归端到端语音翻译的重新排序能力

使用连接主义时间分类（CTC）构建非自回归语音到文本翻译模型，并将基于 CTC 的自动语音识别作为辅助任务来提高性能。通过对 CTC 的重新排序能力进行分析，使用肯德尔 - 塔距离作为定量指标并提供梯度可视化，进一步探索了非自回归语音翻译的研究方向。

May, 2021

改进的 Mask-CTC 用于非自回归端到端 ASR

为了实现自动语音识别的实时应用，并降低计算资源需求，本文结合 Conformer 结构和辅助目标预测方法，提高了基于 Mask-CTC 的端到端自动语音识别系统识别准确性 17.5% 以上，同时使推理速度不下降，结果超越标准 CTC 模型。

Oct, 2020

基于 CTC 的 ASR 的上下文感知知识迁移策略

该研究利用一种上下文感知的知识传递策略为基于 CTC 的自动语音识别模型注入语言学信息，提高了其性能表现，通过实验证明了该方法在 AISHELL-1 和 AISHELL-2 数据集上的有效性。

Oct, 2022

并联自回归重评分的非自回归端到端语音翻译

本文提出了一种基于非自回归模型 (NAR) 的高效端到端语音翻译 (E2E-ST) 系统 ——Orthros，使用条件掩蔽语言模型 (CMLM) 和连接主义时间分类 (CTC) 模型作为 NAR 解码器，并采用两种训练方法来增强 CMLM 解码器。实验表明，在三个基准数据集及六个语言方向上，Orthros-CTC 以 Conformer 编码器为基础的模型在保证翻译质量的前提下，将解码速度提高了 3.63 倍。

Sep, 2021