大规模语音类型的语料库

ACLMay, 2020

A Corpus for Large-Scale Phonetic Typology

Elizabeth Salesky, Eleanor Chodroff, Tiago Pimentel, Matthew Wiesner, Ryan Cotterell...

TL;DR介绍了一个包含 690 种语言的大规模语料库，可用于数据驱动的语言学研究，特别是语音学分类及语音学测量。

Abstract

A major hurdle in data-driven research on typology is having sufficient data in many languages to draw meaningful conclusions. We present VoxClamantis v1.0, the first large-scale →

data-driven research typology phonetic typology corpus linguistics

发现论文，激发创造

低资源语言的音标丰富语料构建

本研究介绍了一种用于创建巴西葡萄牙语语音覆盖度广泛的语音语料库的新方法，并提出了基于声音 - 口型语音特征的新的音素分类方法，通过使用该算法，我们使得与目前可用的语音丰富语料库相比，一种样本中不同音素的百分比增加了 55.8％。

Feb, 2024

UCLA 音韵实验室档案的音标分割

UCLA Phonetics Lab Archive 中的语音技术和比较语言学研究依赖于丰富且易于获取的语音数据。通过提供 VoxAngeles，我们提供了 UCLA Phonetics Lab Archive 的经过审核的语音转录和音素级对齐的语料库，该语料库以 95 种语言的 CMU 重新发行版本为起点，通过案例研究说明了该语料库在定量音位类型学方面的可用性，还讨论了 VoxAngeles 语料库在跨语言音韵学、资源匮乏和多语言语音技术方面的实用性。

Mar, 2024

VoxPopuli: 面向表示学习、半监督学习和解释的大规模多语种语音语料库

介绍了 VoxPopuli，它是一个大规模的多语种语音语料库，提供包含 23 种语言的 100K 小时未标记语音数据，以及 16 种语言中的 1.8K 小时转录演讲和对应的 5 种其他语言的 5.1K 小时口译。该语料库还提供了语音识别基线和验证了 VoxPopuli 未标记数据在半监督学习中的多用途性。语料库将在该网址下公开发布。

Jan, 2021

计算语言学文档实验用的极低资源语音语料库

这篇论文介绍了一个收集自非洲 Bantu C25 语族中的一种语言 Mboshi 的语音语料库，在几乎零的资源条件下构建了该语料库，并利用其中的数据完成了口语术语发现。该论文讨论了如何收集，清理和处理数据，并将该数据集提供给社区进行可重现的计算语言文献研究和评估。

Oct, 2017

LibriVoxDeEn: 一个用于德语到英语语音翻译和德语语音识别的语料库

该研究提供一个德语语音、德语文本和英语翻译的平行语料库，以德语有声读物为基础，包括 110 小时的音频材料，对齐了超过 50k 句平行句子，并且提供了更大的数据集，包括 547 小时的德语语音对齐了德语文本，同时为德语语音识别和德语到英语的端到端翻译提供了大量的资源。

Oct, 2019

日耳曼语系低资源语言和方言语料库调查

这篇论文对德国 ic 低资源语言变体的可用语料库进行了系统性调查，发现手工注释的语言资源稀缺，大多数仅涵盖形态和句法，但活跃的研究社区正在不断发展。作者还特意分享了超过 80 个语料库的大概率浏览与查看。

Apr, 2023

VoxLingua107：一个口语识别数据集

本文研究了利用网络音频数据自动识别口语语言的任务。通过从特定语言的 Wikipedia 数据中生成半随机搜索短语，并从 YouTube 中检索视频来提取具有语音的视频片段，并使用语音活动检测和说话人分离提取包含语音的视频片段，最终构建了可用于多种口语识别任务的语言识别模型，自动检索的数据结果优于使用手工标记的专有数据集。

Nov, 2020

概率语言类型学：元音库存的深度生成模型

本文首次利用基于概率的深度随机点过程解决音韵类型学中的基础问题：什么构成了自然元音库，作者通过超过 200 种不同语言的广泛实验以及与之前的计算机模拟方法的对比，提出了全面的理论。

May, 2017

HUI-Audio-Corpus-German：高品质 TTS 数据集

通过神经网络的发展和训练，基于音频数据的 TTS 应用的数据集越来越多，但不同质量的声音、低采样率、缺乏文本规范化以及音频样本与对应转录句子的对齐不利于深度神经网络的表现，而语言资源的问题更为突出。我们输入 “HUI-Audio-Corpus-German” 数据集，采用处理工具的方式产生高质量音频，降低手动创建的难度。

Jun, 2021

TaL：一份同步的多说话人的舌头超声成像、音频和嘴唇视频语料库

本文介绍了 Tongue and Lips 语料库（TaL）的数据来源和处理方式，并在多个任务上对该语料库进行了基准测试，结果表明 TaL 可以用于语音识别和语音合成等任务。

Nov, 2020