一种非自回归生成框架用于端到端同步任意语音翻译

ACLJun, 2024

一种非自回归生成框架用于端到端同步任意语音翻译

A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Any Translation

Zhengrui Ma, Qingkai Fang, Shaolei Zhang, Shoutao Guo, Yang Feng...

TL;DR我们提出了一种新颖的非自回归生成框架用于同时语音翻译 (NAST-S2X)，它将语音到文本和语音到语音任务整合到统一的端到端框架中。实验结果表明，NAST-S2X 在语音到文本和语音到语音任务中优于现有模型，在不到 3 秒的延迟内实现了高质量的同时口译，并在离线生成中提供了 28 倍的解码加速。

Abstract

simultaneous translation models play a crucial role in facilitating communication. However, existing research primarily focuses on text-to-text or speech-to-text models, necessitating additional cascade component

simultaneous translation models speech-to-speech translation non-autoregressive generation framework speech-to-text speech-to-speech tasks

发现论文，激发创造

非自回归流式 Transformer 用于同声翻译

提出了一种非自回归流式 Transformer（NAST）用于同时机器翻译（SiMT），通过通过一种新的编码器和非自回归解码器拓宽了读 / 写策略并降低延迟损失，实验证明 NAST 优于以往自回归 SiMT 基线模型。

Oct, 2023

基于 CTC 的非自回归语音翻译

本文介绍了一种基于 CTC 的非自回归语音翻译模型，采用预测感知编码方法和跨层注意力方法解决了翻译任务中的条件独立生成和单调对齐等问题，加速比为 5.67 倍，BLEU 分数为 29.5，在 MuST-C ST 基准测试上优于自回归模型和之前的最佳结果。

May, 2023

基于 CTC 的非自回归式无文字语音翻译

通过结合预训练、知识蒸馏和先进的非自回归训练技术，如 glancing training 和 non-monotonic latent alignments，基于 CTC 的非自回归模型在直接语音到语音翻译中实现了与自回归模型相当的翻译质量，并提升了 26.81 倍的解码速度。

Jun, 2024

并联自回归重评分的非自回归端到端语音翻译

本文提出了一种基于非自回归模型 (NAR) 的高效端到端语音翻译 (E2E-ST) 系统 ——Orthros，使用条件掩蔽语言模型 (CMLM) 和连接主义时间分类 (CTC) 模型作为 NAR 解码器，并采用两种训练方法来增强 CMLM 解码器。实验表明，在三个基准数据集及六个语言方向上，Orthros-CTC 以 Conformer 编码器为基础的模型在保证翻译质量的前提下，将解码速度提高了 3.63 倍。

Sep, 2021

DASpeech：用于快速高质量语音到语音翻译的有向无环 Transformer

直接的语音对语音翻译（S2ST）模型 DASpeech 能够以极快的解码速度实现高质量的翻译，使用两步骤生成过程的双通路架构，其中语言解码器首先生成目标文本，然后声学解码器根据语言解码器的隐藏状态生成目标语音。

Oct, 2023

交互解码同步语音识别与语音文本翻译

本文提出了一种新的交互式注意机制，使自动语音识别和语音翻译在单个模型中可以同步地和交互地进行，实验表明，该模型在语音翻译和语音识别方面的性能表现均优于基线模型。

Dec, 2019

利用同步的流式 ASR 辅助的直接同声传译

本文提出一种新型的语音翻译范例，通过使用两个分离但同步的解码器，一个用于流式 ASR, 一个用于直接语音翻译，并通过 ASR 生成的中间结果指导直接语音翻译，实现了流畅度更高的翻译质量。

Jun, 2021

基于 Transformer 的语音自动识别模型，考虑词汇语义的非自回归模型

提出了一种基于 Transformer 的、有词汇感知的自动语音识别框架，可以同时训练语音和文本数据，并松弛条件独立性，实现更快的解码速度和较好的性能。实验结果表明，该模型比其他最近提出的非自回归 ASR 模型更具优越性，并且比大多数非自回归 ASR 模型更为简洁，解码速度是经典自回归模型的 58 倍。

May, 2023

半自回归神经机器翻译

本论文提出一种用于快速序列生成的新型模型：半自回归 Transformer (SAT)，该模型在保持全局自回归属性的同时减轻了本地自回归属性，从而能够在每个时间步骤同时产生多个连续的词。在英德翻译和中英翻译任务上进行的实验证明，SAT 实现了翻译质量和解码速度之间的良好平衡。

Aug, 2018

NAST: 无自回归生成器，带有词语对齐功能，用于无监督文本风格转移

本文提出了一种基于非自回归生成器（NAST）的无监督文本风格转换方法，通过显式建模单词对齐关系和对源语句的部分内容进行保护来减轻内容保留问题并精细控制单词级别的风格转换。实验表明，NAST 可以显著提高性能并提供可解释的单词对齐效果。

Jun, 2021