大规模语音类型的语料库
本研究介绍了一种用于创建巴西葡萄牙语语音覆盖度广泛的语音语料库的新方法,并提出了基于声音 - 口型语音特征的新的音素分类方法,通过使用该算法,我们使得与目前可用的语音丰富语料库相比,一种样本中不同音素的百分比增加了 55.8%。
Feb, 2024
UCLA Phonetics Lab Archive 中的语音技术和比较语言学研究依赖于丰富且易于获取的语音数据。通过提供 VoxAngeles,我们提供了 UCLA Phonetics Lab Archive 的经过审核的语音转录和音素级对齐的语料库,该语料库以 95 种语言的 CMU 重新发行版本为起点,通过案例研究说明了该语料库在定量音位类型学方面的可用性,还讨论了 VoxAngeles 语料库在跨语言音韵学、资源匮乏和多语言语音技术方面的实用性。
Mar, 2024
介绍了 VoxPopuli,它是一个大规模的多语种语音语料库,提供包含 23 种语言的 100K 小时未标记语音数据,以及 16 种语言中的 1.8K 小时转录演讲和对应的 5 种其他语言的 5.1K 小时口译。该语料库还提供了语音识别基线和验证了 VoxPopuli 未标记数据在半监督学习中的多用途性。语料库将在该网址下公开发布。
Jan, 2021
这篇论文介绍了一个收集自非洲 Bantu C25 语族中的一种语言 Mboshi 的语音语料库,在几乎零的资源条件下构建了该语料库,并利用其中的数据完成了口语术语发现。该论文讨论了如何收集,清理和处理数据,并将该数据集提供给社区进行可重现的计算语言文献研究和评估。
Oct, 2017
该研究提供一个德语语音、德语文本和英语翻译的平行语料库,以德语有声读物为基础,包括 110 小时的音频材料,对齐了超过 50k 句平行句子,并且提供了更大的数据集,包括 547 小时的德语语音对齐了德语文本,同时为德语语音识别和德语到英语的端到端翻译提供了大量的资源。
Oct, 2019
这篇论文对德国 ic 低资源语言变体的可用语料库进行了系统性调查,发现手工注释的语言资源稀缺,大多数仅涵盖形态和句法,但活跃的研究社区正在不断发展。作者还特意分享了超过 80 个语料库的大概率浏览与查看。
Apr, 2023
本文研究了利用网络音频数据自动识别口语语言的任务。通过从特定语言的 Wikipedia 数据中生成半随机搜索短语,并从 YouTube 中检索视频来提取具有语音的视频片段,并使用语音活动检测和说话人分离提取包含语音的视频片段,最终构建了可用于多种口语识别任务的语言识别模型,自动检索的数据结果优于使用手工标记的专有数据集。
Nov, 2020
本文首次利用基于概率的深度随机点过程解决音韵类型学中的基础问题:什么构成了自然元音库,作者通过超过 200 种不同语言的广泛实验以及与之前的计算机模拟方法的对比,提出了全面的理论。
May, 2017
通过神经网络的发展和训练,基于音频数据的 TTS 应用的数据集越来越多,但不同质量的声音、低采样率、缺乏文本规范化以及音频样本与对应转录句子的对齐不利于深度神经网络的表现,而语言资源的问题更为突出。我们输入 “HUI-Audio-Corpus-German” 数据集,采用处理工具的方式产生高质量音频,降低手动创建的难度。
Jun, 2021
本文介绍了 Tongue and Lips 语料库(TaL)的数据来源和处理方式,并在多个任务上对该语料库进行了基准测试,结果表明 TaL 可以用于语音识别和语音合成等任务。
Nov, 2020