2023 年暴雪挑战赛的 IMS Toucan 系统

Oct, 2023

2023 年暴雪挑战赛的 IMS Toucan 系统

The IMS Toucan System for the Blizzard Challenge 2023

Florian Lux, Julia Koch, Sarina Meyer, Thomas Bott, Nadja Schauffler...

TL;DR改进法语文本至音素处理系统，包括同音异形解歧，使用 Conformer 和 Glow 基于规则的音素转谱图，再通过基于 GAN 的神经声码器将谱图转换为最终音波，应用于 Blizzard Challenge 2023。

Abstract

For our contribution to the blizzard challenge 2023, we improved on the system we submitted to the blizzard challenge 2021. Our approach entails a →

blizzard challenge rule-based text-to-phoneme processing homographs disambiguation non-autoregressive synthesis architecture neural vocoder

发现论文，激发创造

Blizzard 2023 挑战中的 FruitShell 法语综合系统

该研究论文介绍了一个面向 Blizzard Challenge 2023 的法语文本转语音合成系统，通过数据筛选、数据增强和声学模型等方法，实现高质量的语音合成。

Sep, 2023

DelightfulTTS: 微软语音合成系统参加暴雪挑战 2021

本文描述了 Microsoft 的端到端神经文本语音合成系统：用于 Blizzard Challenge 2021 的 DelightfulTTS。该系统在两个方面实现了将文本合成成自然且高质量的语音：一方面是直接建模和生成 48 kHz 采样率的波形，另一方面是通过系统化设计来建模语音中的变化信息，从而提高韵律和自然度。

Oct, 2021

ICASSP2024 ICMC-ASR 大赛的 NUS-HLT 系统

我们团队在 ICMC-ASR 挑战赛的两个方向上付出了努力，包括多通道前端增强和辨析、训练数据增强、多通道分支的语音识别模型，经测试，在官方 Eval1 和 Eval2 数据集上，我们的最佳系统相对于官方基准系统提高了 34.3% 的 CER 和 56.5% 的 cpCER。

Dec, 2023

利用语音克隆对印度语言进行规模化的 NVIDIA 多说话人多语音 TTS 系统

本文介绍了 NVIDIA 为 2024 年 MMITS-VC 挑战赛开发的 TTS 模型。在 Track 1 和 Track 2 中，我们利用 RAD-MMM 进行少样本 TTS 并在目标说话者数据上额外训练 5 分钟。在 Track 3 中，我们利用 P-Flow 进行零样本 TTS，同时训练挑战数据集和外部数据集，并使用 HiFi-GAN 声码器进行所有提交。RAD-MMM 在 Track 1 和 Track 2 上表现具有竞争力，而 P-Flow 在 Track 3 上排名第一，得分为 4.4 的平均意见分数 (MOS) 和 3.62 的说话者相似度分数 (SMOS)。

Jan, 2024

一种基于 VITS2 的多说话人多语言语音克隆系统，用于 limmits2024 挑战

本文介绍了一个语音合成系统的开发，用于 LIMMITS'24 挑战赛，主要关注第二阶段。该系统的目标是建立一个具有语音克隆功能的多说话人、多语言的印度文本到语音系统，涵盖了七种印度语言和男女两性的发言人。该系统通过使用挑战数据进行训练，并针对目标发言人进行少样本语音克隆进行了微调。评估包括对所有七种语言进行单语和跨语言综合的主观测试，评估自然度和发言人相似性。我们的系统使用了 VITS2 架构，结合多语言 ID 和 BERT 模型来增强上下文语言理解。在第一阶段，不允许使用额外数据的情况下，我们的模型的发言人相似性得分为 4.02。而在允许使用额外数据的第二阶段，得分为 4.17。

Jun, 2024

KIT 的 IWSLT 2023 多语言语音翻译系统

本文介绍了一种针对具有口音的输入语音和术语密集的内容进行科学会议演讲翻译的语音翻译系统，使用了 kNN-MT 方法进行有效适应，该系统远优于其端对端对应物。

Jun, 2023

Transsion TSUP 的语音识别系统用于 ASRU 2023 MADASR 挑战

该研究提出了一种语音识别系统，专门用于适应资源有限的印度语言，采用 ASR 模型和 KenLM 语言模型，取得了较低的错误率。

Jul, 2023

IARPA OpenASR21 挑战中的 THUEE 系统描述

该论文介绍了 THUEE 团队为 IARPA OpenASR21 挑战赛开发的语音识别系统，包括使用基于混合体系结构的 ASR 系统、使用 Grapheme-to-Phoneme 技术扩展发音词典来缓解词汇外问题、使用 self-supervised 学习框架 wav2vec2.0 等技术来提高识别准确度等。

Jun, 2022

2024 年 IWSLT 大会 NAIST 同时语音翻译系统

该研究论文描述了 NAIST 参与 IWSLT 2024 评估活动的同时研究领域：英语到 {德语、日语、中文} 的语音文本翻译和英语到日语的语音语音翻译。他们开发了一个多语言端到端语音文本翻译模型，结合了两个预训练语言模型 HuBERT 和 mBART。通过两种解码策略（即本地一致性和 AlignAtt），他们训练了该模型，最终采用了本地一致性策略。他们的语音语音翻译方法是以上述语音文本模型作为初始，并结合包含音素估计模型、并行声学模型和并行 WaveGAN 声码器的渐进式文本语音模块。通过应用 Transformer 架构和 AlignAtt 策略改进的渐进式文本语音模块，结果显示他们的升级 TTS 模块有助于改善系统性能。

Jun, 2024

2022 Newsbridge-Telecom SudParis VoxCeleb 说话人识别挑战系统描述

该研究论文讨论了 VoxCeleb Speaker Recognition Challenge 2022 中讲者辨识赛道中的语音活动检测问题，提出了基于多流方法和熵决策协议的语音活动检测模型，并取得了接近最新成果的效果。

Jan, 2023