级联和直接语音到文本翻译中的韵律学:以韩语 Wh 短语为例的案例研究
本文提出了一个将多个韵律转移技术综合起来的综合层次系统(holistic cascade system)来把源语言的情感转移到目标语言中。我们还建立了一个基准的情感测试集来评估多重情感维度。实验结果表明,这种综合建模方法优于单一方面的研究。
Jan, 2023
本研究通过对自然语言翻译中的直接方法与传统叠加方法的比较,系统地展示了两种范式之间的性能差距已经消失,它们的行为差异也被证明不足以让人区分或偏好其中的一种。
Jun, 2021
该论文介绍了 CrossVoice,这是一种采用先进的 ASR、MT 和 TTS 技术的级联式语音到语音翻译(S2ST)系统,通过迁移学习实现跨语言语调保留。我们通过与直接 S2ST 系统的全面实验比较,展示了在 Fisher Es-En、VoxPopuli Fr-En 等任务中,CrossVoice 在 BLEU 分数上的改进以及在基准数据集 CVSS-T 和 IndicTTS 上的语调保留能力。通过平均 4 分中的 3.75 的意见得分,CrossVoice 合成的语音与基准上的人类语音接近,突出了级联式系统和迁移学习在多语言 S2ST 中的有效性。
May, 2024
本研究提出一种直接语音到语音的翻译模型,它可以在不依赖中间文本生成的情况下将一种语言的语音翻译成另一种语言的语音,并且结合了自我监督离散语音编码和序列到序列的语音到单位翻译,以预测目标语音的离散表示,并在同一推断通过实现同步生成双重模态输出(语音和文本)。在 Fisher 西班牙语 - 英语数据集上,我们的模型较基线直接 S2ST 模型改进了 6.7 BLEU。由于能够支持未书写语言的翻译,当没有文本转录时,我们的模型表现与训练有文本监督的谱图预测模型相当。
Jul, 2021
本研究探讨无需转录的直接语音翻译模型在性别翻译方面的性别偏见及其潜在危害,并比较不同方法通知模型说话人性别信息的效果,结果表明性别感知模型相比于无性别感知模型在性别标记词的翻译准确率上可提高 30 个百分点,同时保证总体翻译质量。
Dec, 2020
现有的两阶段直接语音到语音翻译(S2ST)模型将任务分解为语音到文本翻译(S2TT)和文本到语音合成(TTS),并在端到端模型中取得了良好的结果。然而,这些模型的训练仍然依赖于平行语音数据,这一数据很难收集。相比之下,S2TT 和 TTS 已经积累了大量的数据和预训练模型,但尚未完全用于 S2ST 模型的开发。本文针对此问题提出了一个名为 ComSpeech 的复合 S2ST 模型,可以无缝集成任何预训练的 S2TT 和 TTS 模型为一个直接的 S2ST 模型。此外,为了消除对平行语音数据的依赖,我们提出了一种新的训练方法 ——ComSpeech-ZS,它仅使用 S2TT 和 TTS 数据。通过对比学习在潜在空间中对齐表示,使从 TTS 数据中学到的语音合成能力能够以零 - shot 的方式推广到 S2ST。在 CVSS 数据集上的实验结果表明,当有平行语音数据时,ComSpeech 在翻译质量和解码速度上都超过了之前的两阶段模型,如 UnitY 和 Translatotron 2。当没有平行语音数据时,ComSpeech-ZS 仅在 ASR-BLEU 上落后于 ame,但胜过了级联模型。
Jun, 2024
本文旨在通过多种方法利用无监督和弱监督的语音和文本数据来提高基于 Translatotron 2 的直接语音到语音翻译系统的性能,实现在 21 种语言对上 BLEU 值提高 13.6(相对增长 113%),特别是对于低资源语言的提高更为显著(相对增长 398%)
Mar, 2022
本文提出了一种基于不对称数据的语音到语音模型 Speech2S,利用双语文本数据训练模型可以有效地模拟跨语言的语音转换,实验结果显示,Speech2S 的表现比现有的最先进模型更好。
Oct, 2022
提出了一种无需文本标注的直接语音翻译模型,使用瓶颈特征作为中间训练目标,可在普通话 - 粤语语音翻译上实现与级联系统相同的翻译和合成质量。
Dec, 2022