AISHELL-3: 多说话人普通话 TTS 语料库和基准线

Oct, 2020

AISHELL-3: 多说话人普通话 TTS 语料库和基准线

AISHELL-3: A Multi-speaker Mandarin TTS Corpus and the Baselines

Yao Shi, Hui Bu, Xin Xu, Shaoji Zhang, Ming Li

TL;DR本论文介绍了 AISHELL-3 数据集，用于训练多扬声器普通话语音合成系统，同时介绍了一种基于 Tacotron-2 的多扬声器语音合成基线模型，该模型结合了说话人验证模型和相应的语音相似性损失作为反馈约束。该论文旨在利用所提供的语音数据集构建鲁棒的语音合成模型，并实现零 - shot 语音克隆。实验结果表明，该多说话人合成系统在声纹嵌入相似性和等误差率测量方面均能实现较高的语音相似度。

Abstract

In this paper, we present aishell-3, a large-scale and high-fidelity multi-speaker Mandarin speech corpus which could be used to train multi-spea

aishell-3 multi-speaker mandarin speech synthesis speaker verification model voice cloning

发现论文，激发创造

AISHELL-1: 一个开放源代码的汉语语音数据集与基准语音识别系统

发布了名为 AISHELL-1 的开源普通话语音语料库，是目前适用于进行普通话语音识别研究和构建普通话语音识别系统的最大语料库，实验结果表明音频录制和转录的质量是有前途的。

Sep, 2017

AISHELL-2: 将标准普通话自动语音识别研究转化为工业规模

AISHELL-2 is an open-source Mandarin speech recognition corpus with 1000 hours of clean read-speech data from iOS, an improved recipe that contains key components for industrial applications, and supports various state-of-the-art techniques; it is a solid resource for transfer learning and robust ASR research and a helpful reference for building meaningful industrial systems and products.

Aug, 2018

VoiceBank-2023：用于构建语音障碍患者个性化 TTS 系统的多说话人普通话语音语料库

台湾在 2020 年启动了 VoiceBanking 项目，旨在为肌萎缩性侧索硬化症患者提供个性化的普通话语音合成系统。本文报道了 VoiceBanking 项目中语料库设计、录制、数据整理和修正，以及开发的个性化普通话语音合成系统的评估。

Aug, 2023

WenetSpeech：一个拥有 10,000 多小时的多领域普通话语音语料库用于语音识别

WenetSpeech 是当前最大的开源普通话语音语料库，其包含 10000 小时以上高质量语音数据、2400 小时弱标注语音数据以及大约 10000 小时无标注语音数据，以及采集自多个场景下的数据，采用 OCR 及高质量 ASR 转录进行语音文本对齐，利用自研的端到端标签错误检测方法进一步筛选数据后，提供了工具集如 Kaldi、ESPnet 等，并基于三个不同测试集对其进行了基准测试。

Oct, 2021

揭示基于 LLM 的中文开源数据集上的 ASR 潜力

基于大型语言模型的自动语音识别研究，探索了多种配置下的语音编码器、语言模型和投影模块对 ASR 性能的影响，采用三阶段训练方法实现了在中文数据集上的最佳表现，为未来 LLM 基于 ASR 系统的研究提供了实证基础和性能优化的见解。

May, 2024

EMOVIE：一种普通话情感语音数据集及其简单情感文本转语音模型

本篇论文提供了包括 9,724 个样本的情感语音数据集，并提出了一种名为 EMSpeech 的情感语音合成模型，该模型无需参考音频即可从文本预测情感标签并生成更富表现力的语音。在实验中，作者验证了数据集的有效性，证明了该模型在情感语音合成任务中取得了显著性能。

Jun, 2021

AISHELL-NER：基于中文语音的命名实体识别

本文介绍了一个 Named Entity Recognition (NER) 的数据集 AISEHLL-NER，是用于处理中文语音的 NER 任务。文章测试了几种最先进的方法，结果表明通过组合 entity-aware ASR 和预训练的 NER tagger 可以提高模型性能，并且该数据集可以公开获取。

Feb, 2022

TED-LIUM 3: 基于增加数据和语料库重新分配的说话人自适应实验

本文介绍 TED-LIUM 发布的第三个语音识别数据集，主要是为了增加训练声学模型的可用数据，比 TED-LIUM 2 多出一倍以上的语料。研究表明，相比 2012 年和 2014 年发布的数据集，通过提高训练数据量，对于端到端的 ASR 系统更为有效。同时，本文还提出了根据说话人自适应进行实验的两组 TED-LIUM release 3 corpus 数据分配计划，并且将其免费提供给研究社区。

May, 2018

推进语音翻译：普通话 - 英语电话会话语料库

本文介绍了英语翻译，适用于部分通话家庭普通话数据和香港科技大学普通话电话语音数据的语音翻译任务。研究表明，将通用翻译模型微调为普通话 - 英语对话电话语音训练集可以使目标领域 BLEU 提高 8 个百分点以上，突显了配对训练数据的重要性。

Mar, 2024

用于语音识别和翻译的多语种 TEDx 语料库

我们提供了一个多语言 TEDx 语料库，支持语音识别和语音翻译的研究，可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合，提供了 8 个源语言，我们将转录分割成句子，并将它们与源语言音频和目标语言翻译对齐。此外，我们提供基线模型，包括多语种模型，以提高低资源语种的翻译性能。

Feb, 2021