使用离散单元进行信任的旁遮普语到英语的直接翻译
本研究提出一种直接语音到语音的翻译模型,它可以在不依赖中间文本生成的情况下将一种语言的语音翻译成另一种语言的语音,并且结合了自我监督离散语音编码和序列到序列的语音到单位翻译,以预测目标语音的离散表示,并在同一推断通过实现同步生成双重模态输出(语音和文本)。在 Fisher 西班牙语 - 英语数据集上,我们的模型较基线直接 S2ST 模型改进了 6.7 BLEU。由于能够支持未书写语言的翻译,当没有文本转录时,我们的模型表现与训练有文本监督的谱图预测模型相当。
Jul, 2021
本研究提出了一种使用离散声学单元的直接文本到语音翻译系统,该系统能够将不同源语言的文本作为输入,生成目标语言的语音,无需该语言的文本转录。通过使用语音编码器与聚类算法相结合来提取声学单元,利用先前工作中在直接语音到语音翻译系统中成功运用的声学单元,构建了该框架。通过训练编码器 - 解码器架构来预测声学单元,然后使用声码器从单元生成语音。我们在新的 CVSS 语料库上测试了直接文本到语音翻译的方法,使用了两个不同的初始模型(mBART)。所提出的系统在大多数评估的语言对上表现出竞争性能。此外,结果显示,使用预先训练了更多语言的模型初始化我们提出的架构,能够取得显著的改进。
Sep, 2023
本文提出了一种名为 UnitY 的新型两遍直接 S2ST 架构,通过子词预测、先进的两遍解码器架构设计和搜索策略以及更好的训练规则等技术实现模型性能的提升,其在多个基准数据集上表现出比单遍语音转换模型高 2.5-4.2 ASR-BLEU 分数且同时具有 2.83 倍的解码速度提速。
Dec, 2022
本文提出了一种基于自动发现独立单元的无监督语音到语音翻译系统,使用三步训练过程,避免使用自动语音识别和文本转语音模型,在合成语音上的实验结果表明该方法可行。
May, 2023
直接语音到语音翻译(S2ST)结合了离散的自监督表示,取得了显著的准确性,但无法在翻译过程中保留源语音的说话人音色。我们提出了一个基于自监督模型的离散单元和神经编解码器的 S2ST 框架,用于样式转换。声学语言模型利用自监督的上下文学习,获得了样式转换的能力,无需依赖任何说话人平行数据,从而克服了数据稀缺的问题。通过使用大量的训练数据,我们的模型可以在之前未见过的源语言上进行零 - shot 跨语言样式转换。实验证明,我们的模型生成的翻译语音在高保真度和样式相似性上表现出色。音频样本可在此网址获取。
Sep, 2023
我们提出了一种方法,通过单一模型学习多语言语音和文本的统一表示,特别关注语音合成的目的。我们使用语音单元表示多语言语音音频,这是从自我监督语音模型编码的语音特征的量化表示。因此,我们可以将语音视为伪文本,并构建语音和文本的统一表示。然后,我们提出在多语言数据上通过单位到单位翻译 (UTUT) 目标训练编码器 - 解码器结构模型。通过使用源语言标记来确定编码器,使用目标语言标记来确定解码器,该模型被优化为将口语语言翻译为目标语言的翻译模型。因此,该模型可以建立口语语言的理解方式,并将其与不同语言相关联。单个经过预训练的 UTUT 模型可以用于各种多语言语音和文本相关任务,如语音到语音翻译 (STS)、多语言文本到语音合成 (TTS) 和文本到语音翻译 (TTST)。我们通过包含各种语言的综合实验验证了所提出方法的有效性。此外,我们展示了 UTUT 可以执行先前在文献中未探索的多对多语言 STS。样例可在此网址获取:https://URL
Aug, 2023
本文提出了一种基于 Translatotron 2 的 Textless Translatotron 模型,使用预处理的无监督语音数据的语音编码器进行训练,针对缺乏书面形式的语言进行端到端的直接语音翻译,效果优于之前的最佳无文本模型,且在多语言和双语语料库上,翻译质量几乎与 Translatotron 2 相当。
Oct, 2022
本文提出了离散单元反向翻译(DUB)模型,用于探究语音到文本翻译(ST)中:(1)使用离散单元还是连续特征表征语音更有优势;(2)对 ST 使用有用的机器翻译技术的好处有多大。DUB 成功地将反向翻译技术应用于 ST,平均提高了 MuST-C En-De/Fr/Es 的 BLEU 5.5。在低资源语言方案中,DUB 模型的表现相当于依赖于大规模外部数据的现有模型。
May, 2023
我们提出了 PolyVoice,这是一个基于语言模型的语音 - 语音翻译(S2ST)系统,利用离散化语音单元实现对未书写语言的翻译。在语音合成方面,我们采用现有的 VALL-E X 方法构建基于单元的音频语言模型来保留原始语音的音色特征和语音风格。实验结果表明,我们的系统可以生成高质量翻译和音频质量的语音。
Jun, 2023