基于 CTC 的直接语音翻译压缩
本研究提出了一种创新的同步双语联结主义时间分类 (CTC) 框架,利用双重 CTC 来填补语音翻译任务中模态和语言之间的差距。通过将转录和翻译作为 CTC 的并行目标,我们的模型填补了音频和文本以及源语言和目标语言之间的差距。在 CTC 应用的最新进展基础上,我们还开发了一个增强的变体 BiL-CTC+,在资源受限场景下创造出了新的最先进性能。有趣的是,我们的方法还显著提高了语音识别性能,揭示了跨语言学习对转录的影响,并展示了其广泛的适用性。源代码可以在此 https URL 获取。
Sep, 2023
这篇论文探讨了 Connectionist Temporal Classification 在翻译任务中的应用,并提出了 CTC/attention 的联合模型,改进了传统 attention 模型的训练表现和效果。
Oct, 2022
本文提出了一种通过前置训练解决语音到文本模式间隔问题的方法,其中使用连接主义时间分类损失和最优传输相结合的前置训练,该方法在标准的 CoVoST-2 和 MuST-C 数据集上实现了最新的性能,并与最近的强多任务学习系统表现相当。
Jan, 2023
研究了多种适应和规则化技术,并使用深度神经网络,调查了自适应性训练的潜力, 并研究了退火珂朵莉的效果,得出结果表明使用 LHUC 进行适应可以改善全语言子母的 CTC 系统的性能,并且在有限数据上可以实现与 DNN/HMM 系统的竞争性性能。
Nov, 2017
基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱,本文提出了两种知识转移方法,借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中,相对于不使用外部语言模型的基础模型,我们的方法将字符错误率降低了 16.1%。
Feb, 2022
通过结合预训练、知识蒸馏和先进的非自回归训练技术,如 glancing training 和 non-monotonic latent alignments,基于 CTC 的非自回归模型在直接语音到语音翻译中实现了与自回归模型相当的翻译质量,并提升了 26.81 倍的解码速度。
Jun, 2024
现有的两阶段直接语音到语音翻译(S2ST)模型将任务分解为语音到文本翻译(S2TT)和文本到语音合成(TTS),并在端到端模型中取得了良好的结果。然而,这些模型的训练仍然依赖于平行语音数据,这一数据很难收集。相比之下,S2TT 和 TTS 已经积累了大量的数据和预训练模型,但尚未完全用于 S2ST 模型的开发。本文针对此问题提出了一个名为 ComSpeech 的复合 S2ST 模型,可以无缝集成任何预训练的 S2TT 和 TTS 模型为一个直接的 S2ST 模型。此外,为了消除对平行语音数据的依赖,我们提出了一种新的训练方法 ——ComSpeech-ZS,它仅使用 S2TT 和 TTS 数据。通过对比学习在潜在空间中对齐表示,使从 TTS 数据中学到的语音合成能力能够以零 - shot 的方式推广到 S2ST。在 CVSS 数据集上的实验结果表明,当有平行语音数据时,ComSpeech 在翻译质量和解码速度上都超过了之前的两阶段模型,如 UnitY 和 Translatotron 2。当没有平行语音数据时,ComSpeech-ZS 仅在 ASR-BLEU 上落后于 ame,但胜过了级联模型。
Jun, 2024
本文介绍了一种基于 CTC 的非自回归语音翻译模型,采用预测感知编码方法和跨层注意力方法解决了翻译任务中的条件独立生成和单调对齐等问题,加速比为 5.67 倍,BLEU 分数为 29.5,在 MuST-C ST 基准测试上优于自回归模型和之前的最佳结果。
May, 2023
该论文研究了通过使用其他语言的数据和建立多语言系统来处理自动语音识别中数据稀缺性的问题,使用循环神经网络和连接时序分类等技术进行训练,提高了多语言系统的性能,缩小了单语和多语系统之间的差距。
Nov, 2017
COSTT 是一种整体方法,可以将语音转文本的源转录文本和目标的翻译文本生成在单个解码器中,从而实现语音翻译的模型训练以充分利用大量的平行文本语料库。实验证明,该方法在三个主流数据集上表现优于或不逊于之前的最新方法。
Sep, 2020