无文字自学习蒸馏的噪声鲁棒感情语音对语音翻译模型

ACLJun, 2024

无文字自学习蒸馏的噪声鲁棒感情语音对语音翻译模型

Textless Acoustic Model with Self-Supervised Distillation for Noise-Robust Expressive Speech-to-Speech Translation

Min-Jae Hwang, Ilia Kulikov, Benjamin Peloquin, Hongyu Gong, Peng-Jen Chen...

TL;DR提出了一种文本无关的声学模型与自我监督蒸馏策略相结合的噪声鲁棒表达式语音翻译 (S2ST) 模型，通过将 U2S 生成器与语音到单元翻译模型级联，可以在存在噪声的环境中生成高质量的语音，并在干净环境中保持竞争性性能。

Abstract

In this paper, we propose a textless acoustic model with a self-supervised distillation strategy for noise-robust expressive speech-to-speech translation (S2ST). Recently proposed expressive S2ST systems have ach

textless acoustic model self-supervised distillation strategy noise-robust expressive speech-to-speech translation u2s generator expressive s2st system

发现论文，激发创造

无文本直接语音翻译与离散语音表示

本文提出了一种基于 Translatotron 2 的 Textless Translatotron 模型，使用预处理的无监督语音数据的语音编码器进行训练，针对缺乏书面形式的语言进行端到端的直接语音翻译，效果优于之前的最佳无文本模型，且在多语言和双语语料库上，翻译质量几乎与 Translatotron 2 相当。

Oct, 2022

基于离散单元的风格转换的语音到语音翻译

直接语音到语音翻译（S2ST）结合了离散的自监督表示，取得了显著的准确性，但无法在翻译过程中保留源语音的说话人音色。我们提出了一个基于自监督模型的离散单元和神经编解码器的 S2ST 框架，用于样式转换。声学语言模型利用自监督的上下文学习，获得了样式转换的能力，无需依赖任何说话人平行数据，从而克服了数据稀缺的问题。通过使用大量的训练数据，我们的模型可以在之前未见过的源语言上进行零 - shot 跨语言样式转换。实验证明，我们的模型生成的翻译语音在高保真度和样式相似性上表现出色。音频样本可在此网址获取。

Sep, 2023

使用离散单元进行直接语音到语音翻译

本研究提出一种直接语音到语音的翻译模型，它可以在不依赖中间文本生成的情况下将一种语言的语音翻译成另一种语言的语音，并且结合了自我监督离散语音编码和序列到序列的语音到单位翻译，以预测目标语音的离散表示，并在同一推断通过实现同步生成双重模态输出（语音和文本）。在 Fisher 西班牙语 - 英语数据集上，我们的模型较基线直接 S2ST 模型改进了 6.7 BLEU。由于能够支持未书写语言的翻译，当没有文本转录时，我们的模型表现与训练有文本监督的谱图预测模型相当。

Jul, 2021

使用自监督预训练和数据增强增强的直接语音翻译

本文讨论了直接语音到语音翻译模型面临的数据稀缺性问题，探索了自监督预训练和数据增强技术来解决此问题，实验表明自监督预训练可以提高模型性能，结合数据增强技术可以进一步提高模型性能。

Apr, 2022

真实数据上的无字幕语音翻译

我们提出了一种无需文本数据即可构建的无文本语音到语音翻译系统，采用了自监督单元级别的语音标准化技术来优化多说话者语音的模型，仅使用了 10 分钟的数据训练该技术，可在 VoxPopuli S2ST 数据集上实现平均 3.2 BLEU 分数的增益，是首次建立了可用于多种语言对的无文本 S2ST 技术。

Dec, 2021

基于单元的无平行数据语音翻译

本文提出了一种基于自动发现独立单元的无监督语音到语音翻译系统，使用三步训练过程，避免使用自动语音识别和文本转语音模型，在合成语音上的实验结果表明该方法可行。

May, 2023

利用无监督和弱监督数据，提高直接语音翻译的准确性

本文旨在通过多种方法利用无监督和弱监督的语音和文本数据来提高基于 Translatotron 2 的直接语音到语音翻译系统的性能，实现在 21 种语言对上 BLEU 值提高 13.6（相对增长 113%），特别是对于低资源语言的提高更为显著（相对增长 398%）

Mar, 2022

DASpeech：用于快速高质量语音到语音翻译的有向无环 Transformer

直接的语音对语音翻译（S2ST）模型 DASpeech 能够以极快的解码速度实现高质量的翻译，使用两步骤生成过程的双通路架构，其中语言解码器首先生成目标文本，然后声学解码器根据语言解码器的隐藏状态生成目标语音。

Oct, 2023

AV-TranSpeech: 音视觉鲁棒语音 - 语音翻译

AV-TranSpeech 是第一种不依赖中间文本的视听信息补充模型，通过自监督预训练和跨模态蒸馏，可以有效提高低资源视听数据的语音转换性能。

May, 2023

无监督语音文本翻译

本文提出了一种基于单语音频和文本语料库的语音翻译系统框架，使用交叉模态双语词典将每个源语音片段对应到目标文本翻译，通过使用语言模型和序列去噪自编码器，对每个音频片段进行逐字翻译来提高翻译质量，实验结果表明，我们的无监督系统尽管没有监督，但达到了与监督方法相比可比的 BLEU 分数。

Nov, 2018