级联和直接语音到文本翻译中的韵律学：以韩语 Wh 短语为例的案例研究

ACLFeb, 2024

级联和直接语音到文本翻译中的韵律学：以韩语 Wh 短语为例的案例研究

Prosody in Cascade and Direct Speech-to-Text Translation: a case study on Korean Wh-Phrases

Giulio Zhou, Tsz Kin Lam, Alexandra Birch, Barry Haddow

TL;DR直接语音到文本翻译系统可以有效利用韵律，具有比级联翻译模型更高的准确性和意图分类效果。

Abstract

speech-to-text translation (S2TT) has typically been addressed with cascade systems, where speech recognition systems generate a transcription that is subsequently passed to a translation model. While there has been a growing interest in developing direct speech translation systems to

speech-to-text translation direct s2tt systems acoustic signal prosodic features contrastive evaluation

发现论文，激发创造

一种全面级联系统、基准测试和人类评估协议，用于表达性语音翻译

本文提出了一个将多个韵律转移技术综合起来的综合层次系统（holistic cascade system）来把源语言的情感转移到目标语言中。我们还建立了一个基准的情感测试集来评估多重情感维度。实验结果表明，这种综合建模方法优于单一方面的研究。

Jan, 2023

级联式翻译 vs 直接式翻译：这些差异是否仍然有所不同？

本研究通过对自然语言翻译中的直接方法与传统叠加方法的比较，系统地展示了两种范式之间的性能差距已经消失，它们的行为差异也被证明不足以让人区分或偏好其中的一种。

Jun, 2021

CrossVoice：使用迁移学习的跨语言韵律保持级联 S2ST

该论文介绍了 CrossVoice，这是一种采用先进的 ASR、MT 和 TTS 技术的级联式语音到语音翻译（S2ST）系统，通过迁移学习实现跨语言语调保留。我们通过与直接 S2ST 系统的全面实验比较，展示了在 Fisher Es-En、VoxPopuli Fr-En 等任务中，CrossVoice 在 BLEU 分数上的改进以及在基准数据集 CVSS-T 和 IndicTTS 上的语调保留能力。通过平均 4 分中的 3.75 的意见得分，CrossVoice 合成的语音与基准上的人类语音接近，突出了级联式系统和迁移学习在多语言 S2ST 中的有效性。

May, 2024

使用离散单元进行直接语音到语音翻译

本研究提出一种直接语音到语音的翻译模型，它可以在不依赖中间文本生成的情况下将一种语言的语音翻译成另一种语言的语音，并且结合了自我监督离散语音编码和序列到序列的语音到单位翻译，以预测目标语音的离散表示，并在同一推断通过实现同步生成双重模态输出（语音和文本）。在 Fisher 西班牙语 - 英语数据集上，我们的模型较基线直接 S2ST 模型改进了 6.7 BLEU。由于能够支持未书写语言的翻译，当没有文本转录时，我们的模型表现与训练有文本监督的谱图预测模型相当。

Jul, 2021

培育基于性别意识的直接语音翻译系统

本研究探讨无需转录的直接语音翻译模型在性别翻译方面的性别偏见及其潜在危害，并比较不同方法通知模型说话人性别信息的效果，结果表明性别感知模型相比于无性别感知模型在性别标记词的翻译准确率上可提高 30 个百分点，同时保证总体翻译质量。

Dec, 2020

不使用并行语音数据，是否能实现高质量的直接语音到语音翻译？

现有的两阶段直接语音到语音翻译（S2ST）模型将任务分解为语音到文本翻译（S2TT）和文本到语音合成（TTS），并在端到端模型中取得了良好的结果。然而，这些模型的训练仍然依赖于平行语音数据，这一数据很难收集。相比之下，S2TT 和 TTS 已经积累了大量的数据和预训练模型，但尚未完全用于 S2ST 模型的开发。本文针对此问题提出了一个名为 ComSpeech 的复合 S2ST 模型，可以无缝集成任何预训练的 S2TT 和 TTS 模型为一个直接的 S2ST 模型。此外，为了消除对平行语音数据的依赖，我们提出了一种新的训练方法 ——ComSpeech-ZS，它仅使用 S2TT 和 TTS 数据。通过对比学习在潜在空间中对齐表示，使从 TTS 数据中学到的语音合成能力能够以零 - shot 的方式推广到 S2ST。在 CVSS 数据集上的实验结果表明，当有平行语音数据时，ComSpeech 在翻译质量和解码速度上都超过了之前的两阶段模型，如 UnitY 和 Translatotron 2。当没有平行语音数据时，ComSpeech-ZS 仅在 ASR-BLEU 上落后于 ame，但胜过了级联模型。

Jun, 2024

利用无监督和弱监督数据，提高直接语音翻译的准确性

本文旨在通过多种方法利用无监督和弱监督的语音和文本数据来提高基于 Translatotron 2 的直接语音到语音翻译系统的性能，实现在 21 种语言对上 BLEU 值提高 13.6（相对增长 113%），特别是对于低资源语言的提高更为显著（相对增长 398%）

Mar, 2022

结合语音和双语文本的联合预训练，用于直接语音翻译

本文提出了一种基于不对称数据的语音到语音模型 Speech2S，利用双语文本数据训练模型可以有效地模拟跨语言的语音转换，实验结果显示，Speech2S 的表现比现有的最先进模型更好。

Oct, 2022

使用瓶颈特征进行直接语音到语音翻译，无需文本注释

提出了一种无需文本标注的直接语音翻译模型，使用瓶颈特征作为中间训练目标，可在普通话 - 粤语语音翻译上实现与级联系统相同的翻译和合成质量。

Dec, 2022

直接语音转文本翻译的最新进展

本文综述了直接语音翻译的当前技术状况，将现有研究工作分为三个方向：建模负担，数据稀缺和应用问题，并提出了未来工作的一些有前途的方向。

Jun, 2023