AlignSTS: 跨模态对齐实现 语音到歌唱的转换
该研究提出了一种新的离线语音翻译方法,称为离散跨模态对齐方法(Discrete Cross-Modal Alignment method),该方法能有效地将语音和文字的两种模态映射到共享的语义空间中,从而提高零 - shot 语音翻译的性能。
Oct, 2022
本文提出了一种用于声调语言的自动歌曲翻译系统,解决了将单词的音高与歌曲旋律对齐并传达原意的独特挑战。该系统结合预训练和三种解码约束,成功实现了语义和歌唱性的平衡。
Mar, 2022
提出了一种称作 STAST 的语音转写自适应模型,通过分离语音翻译编码器为三个部分以及引入跨模态自适应方法来缩小语音和文本的模态差距,进而在英法和英德语音翻译数据集上实现了显著的性能优越。
Oct, 2020
该论文介绍了 CrossVoice,这是一种采用先进的 ASR、MT 和 TTS 技术的级联式语音到语音翻译(S2ST)系统,通过迁移学习实现跨语言语调保留。我们通过与直接 S2ST 系统的全面实验比较,展示了在 Fisher Es-En、VoxPopuli Fr-En 等任务中,CrossVoice 在 BLEU 分数上的改进以及在基准数据集 CVSS-T 和 IndicTTS 上的语调保留能力。通过平均 4 分中的 3.75 的意见得分,CrossVoice 合成的语音与基准上的人类语音接近,突出了级联式系统和迁移学习在多语言 S2ST 中的有效性。
May, 2024
本研究提出了一种新的语音翻译策略 ——AlignAtt,利用注意力机制生成源 - 目标对齐,指导模型推断,实验证明 AlignAtt 在 8 个语言对中均优于之前的最先进的 SimulST 策略,并提高了 BLEU 分数和处理延迟降低。
May, 2023
本文提出了一种新的交互式注意机制,使自动语音识别和语音翻译在单个模型中可以同步地和交互地进行,实验表明,该模型在语音翻译和语音识别方面的性能表现均优于基线模型。
Dec, 2019
提出了基于前馈 transformer 的 AlignTTS 来预测 mel 频谱,通过 duration predictor 决定每个字符的持续时间,而动态规划技术则用来考虑所有可能的对齐方式,比 Transformer TTS 更高效且在 MOS(平均意见分数)上优于它。
Mar, 2020
该论文研究了语音翻译的跨模态任务,以及如何通过使用最优传输和跨模态混合等方法,来克服语音和文本之间的模态差异,从而提高翻译的准确性。实验结果表明,该方法比以往方法表现更优秀。
May, 2023
直接语音到语音翻译(S2ST)结合了离散的自监督表示,取得了显著的准确性,但无法在翻译过程中保留源语音的说话人音色。我们提出了一个基于自监督模型的离散单元和神经编解码器的 S2ST 框架,用于样式转换。声学语言模型利用自监督的上下文学习,获得了样式转换的能力,无需依赖任何说话人平行数据,从而克服了数据稀缺的问题。通过使用大量的训练数据,我们的模型可以在之前未见过的源语言上进行零 - shot 跨语言样式转换。实验证明,我们的模型生成的翻译语音在高保真度和样式相似性上表现出色。音频样本可在此网址获取。
Sep, 2023