AlignSTS: 跨模态对齐实现语音到歌唱的转换

May, 2023

AlignSTS: 跨模态对齐实现语音到歌唱的转换

AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment

Ruiqi Li, Rongjie Huang, Lichao Zhang, Jinglin Liu, Zhou Zhao

TL;DR该研究提出了基于明确的跨模态对齐的 STS 模型 AlignSTS，用于进行语音到歌唱的转换，实验结果表明，在客观和主观指标上 AlignSTS 表现优异。

Abstract

The speech-to-singing (STS) voice conversion task aims to generate singing samples corresponding to speech recordings while facing a major challenge: the alignment between the target (singing) pitch contour and the source (speech) content is difficult to learn in a text-free situation. This paper proposes AlignSTS, an STS model based on →

speech-to-singing conversion explicit cross-modal alignment rhythm adaptor cross-attention audio synthesis

发现论文，激发创造

离散跨模态对齐实现零 - shot 语音翻译

该研究提出了一种新的离线语音翻译方法，称为离散跨模态对齐方法（Discrete Cross-Modal Alignment method），该方法能有效地将语音和文字的两种模态映射到共享的语义空间中，从而提高零 - shot 语音翻译的性能。

Oct, 2022

端到端语音翻译的模态空间软对齐

使用软对齐方法进行端到端语音翻译，通过对抗训练对齐语音和文本之间的表示空间，提高翻译性能。

Dec, 2023

声调语言自动歌曲翻译

本文提出了一种用于声调语言的自动歌曲翻译系统，解决了将单词的音高与歌曲旋律对齐并传达原意的独特挑战。该系统结合预训练和三种解码约束，成功实现了语义和歌唱性的平衡。

Mar, 2022

弥合语音到文本翻译的模态差距

提出了一种称作 STAST 的语音转写自适应模型，通过分离语音翻译编码器为三个部分以及引入跨模态自适应方法来缩小语音和文本的模态差距，进而在英法和英德语音翻译数据集上实现了显著的性能优越。

Oct, 2020

CrossVoice：使用迁移学习的跨语言韵律保持级联 S2ST

该论文介绍了 CrossVoice，这是一种采用先进的 ASR、MT 和 TTS 技术的级联式语音到语音翻译（S2ST）系统，通过迁移学习实现跨语言语调保留。我们通过与直接 S2ST 系统的全面实验比较，展示了在 Fisher Es-En、VoxPopuli Fr-En 等任务中，CrossVoice 在 BLEU 分数上的改进以及在基准数据集 CVSS-T 和 IndicTTS 上的语调保留能力。通过平均 4 分中的 3.75 的意见得分，CrossVoice 合成的语音与基准上的人类语音接近，突出了级联式系统和迁移学习在多语言 S2ST 中的有效性。

May, 2024

使用基于注意力的音频 - 翻译对齐作为指南的同时语音翻译方法：AlignAtt

本研究提出了一种新的语音翻译策略 ——AlignAtt，利用注意力机制生成源 - 目标对齐，指导模型推断，实验证明 AlignAtt 在 8 个语言对中均优于之前的最先进的 SimulST 策略，并提高了 BLEU 分数和处理延迟降低。

May, 2023

交互解码同步语音识别与语音文本翻译

本文提出了一种新的交互式注意机制，使自动语音识别和语音翻译在单个模型中可以同步地和交互地进行，实验表明，该模型在语音翻译和语音识别方面的性能表现均优于基线模型。

Dec, 2019

AlignTTS: 无需显式对齐的高效前馈式语音合成系统

提出了基于前馈 transformer 的 AlignTTS 来预测 mel 频谱，通过 duration predictor 决定每个字符的持续时间，而动态规划技术则用来考虑所有可能的对齐方式，比 Transformer TTS 更高效且在 MOS（平均意见分数）上优于它。

Mar, 2020

CMOT: 基于最优传输的跨模态 Mixup 语音翻译

该论文研究了语音翻译的跨模态任务，以及如何通过使用最优传输和跨模态混合等方法，来克服语音和文本之间的模态差异，从而提高翻译的准确性。实验结果表明，该方法比以往方法表现更优秀。

May, 2023

基于离散单元的风格转换的语音到语音翻译

直接语音到语音翻译（S2ST）结合了离散的自监督表示，取得了显著的准确性，但无法在翻译过程中保留源语音的说话人音色。我们提出了一个基于自监督模型的离散单元和神经编解码器的 S2ST 框架，用于样式转换。声学语言模型利用自监督的上下文学习，获得了样式转换的能力，无需依赖任何说话人平行数据，从而克服了数据稀缺的问题。通过使用大量的训练数据，我们的模型可以在之前未见过的源语言上进行零 - shot 跨语言样式转换。实验证明，我们的模型生成的翻译语音在高保真度和样式相似性上表现出色。音频样本可在此网址获取。

Sep, 2023

AlignSTS: 跨模态对齐实现 语音到歌唱的转换

AlignSTS: 跨模态对齐实现语音到歌唱的转换