瑞士德语文本转语音流程 -- 一项比较

May, 2023

瑞士德语文本转语音流程 -- 一项比较

Text-to-Speech Pipeline for Swiss German -- A comparison

Tobias Bollinger, Jan Deriu, Manfred Vogel

TL;DR研究使用不同的 TTS 模型合成瑞士德语，发现 VITS 模型表现最佳，使用判别器对模型进行评估，在不同的瑞士德语方言中实现了以前无法达到的语音合成质量。

Abstract

In this work, we studied the synthesis of swiss german speech using different Text-to-Speech (TTS) models. We evaluated the TTS models on three corpora, and we found, that →

swiss german text-to-speech models vits models corpora speech synthesis

发现论文，激发创造

瑞士德语语音转文本系统评估

针对四个商业可用的瑞士德语语音转文本系统和 FHNW 模型展开深入评估，并使用瑞士议会语料库和新闻域中的私人数据集来评估这些模型，并提供了有关模型培训的详细信息，评估了这些模型的强弱点并对其进行了详细的错误分析。

Jul, 2022

面向下一个十亿用户构建文本转语音系统

本研究评估了科威特琴主义和印度Ａryan 语言的声学模型、语音合成器、辅助损失函数、训练计划和说话者和语言多样性。基于此，我们确定了单语模型与 FastPitch 和 HiFi-GAN V1，联合训练男性和女性说话者表现最佳。在这个设置下，我们为 13 种语言训练和评估 TTS 模型，并发现我们的模型在所有语言中都明显优于现有模型。我们通过 Bhashini 平台开源所有模型。

Nov, 2022

Spaiche：扩展最先进的 ASR 模型以支持瑞士德语方言

本研究旨在提高 ASR 模型在瑞士德语方言上的表现，通过提供对最新发布的瑞士德语语音数据集上现有现有 ASR 模型性能的深入了解。我们提出了一种考虑预测和真实标签之间语义距离的新型损失函数，通过对 Swiss-German 数据集上 OpenAI 的 Whisper 模型进行微调，取得了优于当前最新研究成果的结果。

Apr, 2023

通过基于流的语音转换进行跨语言知识蒸馏，用于稳健的多语言文本到语音转换

该研究提出了一个跨语言语音合成框架，包括上游声码转换模型和下游文本转语音模型。通过在四个阶段中使用声码转换模型将目标语音转换为目标说话人的声音、联合目标语言的语言特征和持续时间进行单一说话人声学模型的训练以及设计一种与地区无关的波形合成器等方法，我们的评估表明这种方法优于现有的基于多语言训练模型的方法，并在不同的模型结构、语言、说话人和数据量方面展现出其鲁棒性，尤其适用于资源匮乏环境。

Sep, 2023

NaturalSpeech：端到端文本语音合成，质量达人类水平

本文提出了一种基于变分自动编码器的 TTS 系统 NaturalSpeech，通过多个关键模块提高文本先验的容量和语音后验的复杂度，同时在 LJSpeech 数据集上实验证明该系统在句子级别上达到了人类录音的 - 0.01 CMOS（比较平均意见分数），与人类录音不存在显著性差异。

May, 2022

多语言文本分析用于文本到语音合成

本文介绍了一种基于（加权）有限状态转化器的文本分析模型，可用于 TTS 合成，其使用词汇工具包构建转换器，适用于 8 种语言，包括西班牙语、意大利语、罗马尼亚语、法语、德语、俄语、普通话和日语。

Aug, 1996

儿童语音合成的文本到语音处理流程、评估方法和初步微调结果

本研究通过开发和验证训练管道，使用儿童语音数据集对最先进的神经 TTS 模型进行微调并进行了多方面的评估。结果表明训练后的 TTS 模型能够从只有 5 秒的参考音频样本中合成类似儿童的语音。

Mar, 2022

STT4SG-350: 一份面向瑞士所有德语方言地区的语音语料库

提供了一份瑞士德语语音的语料库，包含了来自各个方言区的 316 名发言者的 343 小时语音数据，并提供了这些发言者的方言、年龄和性别信息。该语料库适用于自动语音识别、文本到语音、方言识别和说话人识别等应用领域，并提供了训练集、验证集和测试集，训练出的模型在测试集上取得了较好的效果。

May, 2023

VITS2: 用对抗学习和架构设计提高单阶段文本转语音的质量和效率

通过改进结构和训练机制，提出的 VITS2 单阶段文本转语音模型在自然度、多说话人模型的语音特征相似性以及训练和推断的效率方面取得了显著改进，并且成功减少了对音素转换的强依赖，实现了完全的端到端单阶段方法。

Jul, 2023

基于言语风格潜在表示的端到端文本转语音技术：基于自然对话的研究

本研究旨在实现一种接近于人类对话的 TTS，通过基于 VAE/GMVAE-VITS 的训练，利用上下文信息来综合预测所需样式的语音合成，实验结果表明，该方法在对话级别的自然度方面优于原本的 VITS。

Jun, 2022