天普大学医院癫痫检测语料库
本文介绍了一个名为 JSUT 的日语语音语料库,用于实现端到端语音合成,由机器学习及深度学习等技术所建立。该语料库包含 10 小时的读取样式语音数据及其转录,涵盖了日常使用日语字符的全部主要发音。
Oct, 2017
通过神经网络的发展和训练,基于音频数据的 TTS 应用的数据集越来越多,但不同质量的声音、低采样率、缺乏文本规范化以及音频样本与对应转录句子的对齐不利于深度神经网络的表现,而语言资源的问题更为突出。我们输入 “HUI-Audio-Corpus-German” 数据集,采用处理工具的方式产生高质量音频,降低手动创建的难度。
Jun, 2021
本文介绍了 Tongue and Lips 语料库(TaL)的数据来源和处理方式,并在多个任务上对该语料库进行了基准测试,结果表明 TaL 可以用于语音识别和语音合成等任务。
Nov, 2020
我们提供了一个多语言 TEDx 语料库,支持语音识别和语音翻译的研究,可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合,提供了 8 个源语言,我们将转录分割成句子,并将它们与源语言音频和目标语言翻译对齐。此外,我们提供基线模型,包括多语种模型,以提高低资源语种的翻译性能。
Feb, 2021
该论文提出了一个新的语音语料库 LibriTTS,用于文本转语音,并展示了该语料库训练出的神经完整端到端的 TTS 模型在自然度方面的评估结果不低于 4.0。
Apr, 2019
我们发布了 EDGAR-CORPUS,这是一个包含美国所有上市公司年报的新颖语料库,其时间跨度超过 25 年,用于训练和发布金融领域的 WORD2VEC 嵌入。使用我们提供的开源工具 EDGAR-CRAWLER,未来的年报下载和提取也将变得更加容易。
Sep, 2021
本文提出了一个欧盟议会 LIBE 委员会的书面语料库,总计 3.6 百万字。在实验过程中,我们使用基于 transformer 的 Wav2vec2.0 模型作为自动语音识别(ASR)流程的基础,并尝试了多个音频模型,语言模型和特定领域术语的添加来适应领域。结果表明,特定领域的音频模型和语言模型显着提高了 ASR 输出的质量,将错误率从 28.22 降至 17.95,并对下游分析任务有用。
Apr, 2023
本文介绍 TED-LIUM 发布的第三个语音识别数据集,主要是为了增加训练声学模型的可用数据,比 TED-LIUM 2 多出一倍以上的语料。研究表明,相比 2012 年和 2014 年发布的数据集,通过提高训练数据量,对于端到端的 ASR 系统更为有效。同时,本文还提出了根据说话人自适应进行实验的两组 TED-LIUM release 3 corpus 数据分配计划,并且将其免费提供给研究社区。
May, 2018
通过使用多达 1 PB 的 Common Crawl 数据,我们提出了 esCorpius,一个高质量的西班牙网络爬取语料库,利用了新颖的高度并行的清理管道和多种去重机制,以确保文档和段落边界的完整性,并遵守欧盟法规。
Jun, 2022
本文介绍了一种新的普通话 - 英语混用语音识别语料库 (TALCS corpus),适用于训练和评估混合语音识别系统。使用 TALCS 语料库,作者在两个流行的语音识别工具包(ESPnet 和 Wenet)上进行实验以构建基线系统,证明了录音和转录的质量很有前途且基线系统可行。
Jun, 2022