Blizzard 2023 挑战中的 FruitShell 法语综合系统
改进法语文本至音素处理系统,包括同音异形解歧,使用 Conformer 和 Glow 基于规则的音素转谱图,再通过基于 GAN 的神经声码器将谱图转换为最终音波,应用于 Blizzard Challenge 2023。
Oct, 2023
本文描述了 Microsoft 的端到端神经文本语音合成系统:用于 Blizzard Challenge 2021 的 DelightfulTTS。该系统在两个方面实现了将文本合成成自然且高质量的语音:一方面是直接建模和生成 48 kHz 采样率的波形,另一方面是通过系统化设计来建模语音中的变化信息,从而提高韵律和自然度。
Oct, 2021
本文介绍了一个语音合成系统的开发,用于 LIMMITS'24 挑战赛,主要关注第二阶段。该系统的目标是建立一个具有语音克隆功能的多说话人、多语言的印度文本到语音系统,涵盖了七种印度语言和男女两性的发言人。该系统通过使用挑战数据进行训练,并针对目标发言人进行少样本语音克隆进行了微调。评估包括对所有七种语言进行单语和跨语言综合的主观测试,评估自然度和发言人相似性。我们的系统使用了 VITS2 架构,结合多语言 ID 和 BERT 模型来增强上下文语言理解。在第一阶段,不允许使用额外数据的情况下,我们的模型的发言人相似性得分为 4.02。而在允许使用额外数据的第二阶段,得分为 4.17。
Jun, 2024
本文介绍了 NVIDIA 为 2024 年 MMITS-VC 挑战赛开发的 TTS 模型。在 Track 1 和 Track 2 中,我们利用 RAD-MMM 进行少样本 TTS 并在目标说话者数据上额外训练 5 分钟。在 Track 3 中,我们利用 P-Flow 进行零样本 TTS,同时训练挑战数据集和外部数据集,并使用 HiFi-GAN 声码器进行所有提交。RAD-MMM 在 Track 1 和 Track 2 上表现具有竞争力,而 P-Flow 在 Track 3 上排名第一,得分为 4.4 的平均意见分数 (MOS) 和 3.62 的说话者相似度分数 (SMOS)。
Jan, 2024
研究使用不同的 TTS 模型合成瑞士德语,发现 VITS 模型表现最佳,使用判别器对模型进行评估,在不同的瑞士德语方言中实现了以前无法达到的语音合成质量。
May, 2023
针对四个商业可用的瑞士德语语音转文本系统和 FHNW 模型展开深入评估,并使用瑞士议会语料库和新闻域中的私人数据集来评估这些模型,并提供了有关模型培训的详细信息,评估了这些模型的强弱点并对其进行了详细的错误分析。
Jul, 2022
本研究采用新的基准测试方法,重点评估了 13 种 Transformer 模型在两个已有的法语口语理解任务中的质量和其生态影响,并证明了压缩模型可以取得较大模型相似的结果,同时具有较小的生态环境影响。
Jul, 2022
本文介绍了一种针对具有口音的输入语音和术语密集的内容进行科学会议演讲翻译的语音翻译系统,使用了 kNN-MT 方法进行有效适应,该系统远优于其端对端对应物。
Jun, 2023
本研究评估了科威特琴主义和印度Aryan 语言的声学模型、语音合成器、辅助损失函数、训练计划和说话者和语言多样性。基于此,我们确定了单语模型与 FastPitch 和 HiFi-GAN V1,联合训练男性和女性说话者表现最佳。在这个设置下,我们为 13 种语言训练和评估 TTS 模型,并发现我们的模型在所有语言中都明显优于现有模型。我们通过 Bhashini 平台开源所有模型。
Nov, 2022
使用自动转录的大规模语音来改进口语语言建模,利用法国国家音频视觉学院收集的文本数据应用 ASR,并在现有模型(FlauBERT)微调或从头开始训练口语语言模型,生成新模型(FlauBERT-Oral),并在口语理解、电视节目分类和语音句法分析 3 个下游任务中评估其性能,结果表明,与初始化 FlauBERT 版本相比,FlauBERT-Oral 有望带来好处,表明尽管 ASR 生成的文本存在噪音,但仍可以用于构建口语语言模型。
Jul, 2022