2023 年暴雪挑战赛的 IMS Toucan 系统
该研究论文介绍了一个面向 Blizzard Challenge 2023 的法语文本转语音合成系统,通过数据筛选、数据增强和声学模型等方法,实现高质量的语音合成。
Sep, 2023
本文描述了 Microsoft 的端到端神经文本语音合成系统:用于 Blizzard Challenge 2021 的 DelightfulTTS。该系统在两个方面实现了将文本合成成自然且高质量的语音:一方面是直接建模和生成 48 kHz 采样率的波形,另一方面是通过系统化设计来建模语音中的变化信息,从而提高韵律和自然度。
Oct, 2021
我们团队在 ICMC-ASR 挑战赛的两个方向上付出了努力,包括多通道前端增强和辨析、训练数据增强、多通道分支的语音识别模型,经测试,在官方 Eval1 和 Eval2 数据集上,我们的最佳系统相对于官方基准系统提高了 34.3% 的 CER 和 56.5% 的 cpCER。
Dec, 2023
本文介绍了 NVIDIA 为 2024 年 MMITS-VC 挑战赛开发的 TTS 模型。在 Track 1 和 Track 2 中,我们利用 RAD-MMM 进行少样本 TTS 并在目标说话者数据上额外训练 5 分钟。在 Track 3 中,我们利用 P-Flow 进行零样本 TTS,同时训练挑战数据集和外部数据集,并使用 HiFi-GAN 声码器进行所有提交。RAD-MMM 在 Track 1 和 Track 2 上表现具有竞争力,而 P-Flow 在 Track 3 上排名第一,得分为 4.4 的平均意见分数 (MOS) 和 3.62 的说话者相似度分数 (SMOS)。
Jan, 2024
本文介绍了一个语音合成系统的开发,用于 LIMMITS'24 挑战赛,主要关注第二阶段。该系统的目标是建立一个具有语音克隆功能的多说话人、多语言的印度文本到语音系统,涵盖了七种印度语言和男女两性的发言人。该系统通过使用挑战数据进行训练,并针对目标发言人进行少样本语音克隆进行了微调。评估包括对所有七种语言进行单语和跨语言综合的主观测试,评估自然度和发言人相似性。我们的系统使用了 VITS2 架构,结合多语言 ID 和 BERT 模型来增强上下文语言理解。在第一阶段,不允许使用额外数据的情况下,我们的模型的发言人相似性得分为 4.02。而在允许使用额外数据的第二阶段,得分为 4.17。
Jun, 2024
本文介绍了一种针对具有口音的输入语音和术语密集的内容进行科学会议演讲翻译的语音翻译系统,使用了 kNN-MT 方法进行有效适应,该系统远优于其端对端对应物。
Jun, 2023
该研究提出了一种语音识别系统,专门用于适应资源有限的印度语言,采用 ASR 模型和 KenLM 语言模型,取得了较低的错误率。
Jul, 2023
该论文介绍了 THUEE 团队为 IARPA OpenASR21 挑战赛开发的语音识别系统,包括使用基于混合体系结构的 ASR 系统、使用 Grapheme-to-Phoneme 技术扩展发音词典来缓解词汇外问题、使用 self-supervised 学习框架 wav2vec2.0 等技术来提高识别准确度等。
Jun, 2022
该研究论文描述了 NAIST 参与 IWSLT 2024 评估活动的同时研究领域:英语到 {德语、日语、中文} 的语音文本翻译和英语到日语的语音语音翻译。他们开发了一个多语言端到端语音文本翻译模型,结合了两个预训练语言模型 HuBERT 和 mBART。通过两种解码策略(即本地一致性和 AlignAtt),他们训练了该模型,最终采用了本地一致性策略。他们的语音语音翻译方法是以上述语音文本模型作为初始,并结合包含音素估计模型、并行声学模型和并行 WaveGAN 声码器的渐进式文本语音模块。通过应用 Transformer 架构和 AlignAtt 策略改进的渐进式文本语音模块,结果显示他们的升级 TTS 模块有助于改善系统性能。
Jun, 2024
该研究论文讨论了 VoxCeleb Speaker Recognition Challenge 2022 中讲者辨识赛道中的语音活动检测问题,提出了基于多流方法和熵决策协议的语音活动检测模型,并取得了接近最新成果的效果。
Jan, 2023