基于神经增量 ASR、MT 和 TTS 的同时语音翻译系统

Nov, 2020

基于神经增量 ASR、MT 和 TTS 的同时语音翻译系统

Simultaneous Speech-to-Speech Translation System with Neural Incremental ASR, MT, and TTS

Katsuhito Sudoh, Takatomo Kano, Sashi Novitasari, Tomoya Yanagita, Sakriani Sakti...

TL;DR本文介绍了一种新开发的神经网络语音到语音翻译系统及其评估，该系统包括三个完全增量的神经处理模块，用于自动语音识别、机器翻译和文本到语音合成，并研究了其整体延迟及模块级性能。

Abstract

This paper presents a newly developed, simultaneous neural speech-to-speech translation system and its evaluation. The system consists of three fully-incremental neural processing modules for automatic speech recognition (ASR), →

neural speech-to-speech translation automatic speech recognition machine translation text-to-speech synthesis latency

发现论文，激发创造

利用同步的流式 ASR 辅助的直接同声传译

本文提出一种新型的语音翻译范例，通过使用两个分离但同步的解码器，一个用于流式 ASR, 一个用于直接语音翻译，并通过 ASR 生成的中间结果指导直接语音翻译，实现了流畅度更高的翻译质量。

Jun, 2021

交互解码同步语音识别与语音文本翻译

本文提出了一种新的交互式注意机制，使自动语音识别和语音翻译在单个模型中可以同步地和交互地进行，实验表明，该模型在语音翻译和语音识别方面的性能表现均优于基线模型。

Dec, 2019

USTC-NELSLIP 在 IWSLT 2021 的同声传译系统

本文介绍了中国科技大学 - 智能语音处理研究组在 IWSLT2021 同声传译（Simultaneous Speech Translation）比赛中的参赛作品。我们提出了一种新颖的同声翻译模型 Cross Attention Augmented Transducer（CAAT），该模型可以在没有单调性约束的情况下进行序列到序列任务，例如同时翻译。我们在语音到文本（S2T）和文本到文本（T2T）同时翻译任务上进行实验，结果显示 CAAT 相对于之前的最先进方法之一 wait-k 实现了更好的质量 - 延迟权衡。基于 CAAT 架构和数据增强，我们在这次评估活动中构建 S2T 和 T2T 同时翻译系统，相比去年的最佳系统，我们的 S2T 同时翻译系统平均提高了 11.3 BLEU，而我们的 T2T 同时翻译系统平均提高了 4.6 BLEU。

Jul, 2021

2024 年 IWSLT 大会 NAIST 同时语音翻译系统

该研究论文描述了 NAIST 参与 IWSLT 2024 评估活动的同时研究领域：英语到 {德语、日语、中文} 的语音文本翻译和英语到日语的语音语音翻译。他们开发了一个多语言端到端语音文本翻译模型，结合了两个预训练语言模型 HuBERT 和 mBART。通过两种解码策略（即本地一致性和 AlignAtt），他们训练了该模型，最终采用了本地一致性策略。他们的语音语音翻译方法是以上述语音文本模型作为初始，并结合包含音素估计模型、并行声学模型和并行 WaveGAN 声码器的渐进式文本语音模块。通过应用 Transformer 架构和 AlignAtt 策略改进的渐进式文本语音模块，结果显示他们的升级 TTS 模块有助于改善系统性能。

Jun, 2024

基于神经机器翻译的实时翻译学习

本论文提出了一种基于神经机器翻译的实时翻译框架，通过代理决策来实现翻译输出实时化并且具有可控的翻译质量与延迟，通过在两种语言对上的实验结果表明了该方法在定量与定性方面的有效性。

Oct, 2016

利用时间戳信息进行序列化联合流式识别和翻译

提出了一种流式 Transformer-Transducer (T-T) 模型，能够使用单个解码器联合生成多对一和一对多的转录和翻译，并引入了一种基于时间戳信息的新颖方法来有效地在流式环境中生成语音识别和语音翻译的输出。通过在 {it, es, de}->en 上进行的实验证明了我们方法的有效性，首次实现了使用单个解码器生成一对多联合输出。

Oct, 2023

一种非自回归生成框架用于端到端同步任意语音翻译

我们提出了一种新颖的非自回归生成框架用于同时语音翻译 (NAST-S2X)，它将语音到文本和语音到语音任务整合到统一的端到端框架中。实验结果表明，NAST-S2X 在语音到文本和语音到语音任务中优于现有模型，在不到 3 秒的延迟内实现了高质量的同时口译，并在离线生成中提供了 28 倍的解码加速。

Jun, 2024

流式混淆网络语音识别

本文提出了一种新型流式自动语音识别架构，可输出混淆网络并保持有限的延迟，以满足交互式应用的需要，其 1-best 结果与可比较的 RNN-T 系统相当，而更丰富的假设集允许进行第二遍重评分，以在 LibriSpeech 任务上实现 10-20％更低的字词误差率，同时在远场语音助手任务中优于强 RNN-T 基线。

Jun, 2023

基于前缀到前缀框架的增量式文本转语音合成

利用前缀到前缀框架构建的神经增量文本转语音系统，实现了在线语音合成，从而将计算延迟和输入延迟分别降至 O (1) 水平。

Nov, 2019

跨语言多说话人 TTS 和跨语言语音转换进行 ASR 数据增强

本文研究跨语种多人语音合成以及跨语种语音转换，并将其应用于自动语音识别（ASR）系统的数据增强。经过大量实验，我们证明了通过使用仅一个目标语言说话者进行模型训练，可以使用语音合成和语音转换来提高目标语言上的 ASR 系统。我们成功地缩小了 ASR 模型训练时使用合成的语音与使用人类语音之间的差距，并通过我们的数据增强方法，在目标语言中仅使用一个真实说话者就能获得有希望的 ASR 训练结果。

Mar, 2022