编制及理论基础：一个包含中英双语儿童非母语言音频语料库

Apr, 2023

编制及理论基础：一个包含中英双语儿童非母语言音频语料库

Building a Non-native Speech Corpus Featuring Chinese-English Bilingual Children: Compilation and Rationale

Hiuchung Hung, Andreas Maier, Thorsten Piske

TL;DR本研究介绍了一个由 50 名中英双语 5-6 岁儿童故事叙述构成的非母语英语语音语料库，提供了 6.5 个小时的儿童在英语（L2）故事理解测试中的文本、语法和发音错误的标注记录和人工评级分数。本语料库可用于第二语言教学，并有助于提高自动语音识别（ASR）的总体性能。

Abstract

This paper introduces a non-native speech corpus consisting of narratives from fifty 5- to 6-year-old chinese-english children. Transcripts totaling 6.5 hours of children taking a →

non-native speech corpus chinese-english children narrative comprehension automatic speech recognition second language teaching

发现论文，激发创造

推进语音翻译：普通话 - 英语电话会话语料库

本文介绍了英语翻译，适用于部分通话家庭普通话数据和香港科技大学普通话电话语音数据的语音翻译任务。研究表明，将通用翻译模型微调为普通话 - 英语对话电话语音训练集可以使目标领域 BLEU 提高 8 个百分点以上，突显了配对训练数据的重要性。

Mar, 2024

HK-LegiCoST: 利用非逐字稿件进行语音翻译

HK-LegiCoST 是一个新的三方平行语料库，包含 600 多小时的粤语音频、其标准繁体中文文本和英文翻译，可用于研究粤语非笔录文本的语音翻译。

Jun, 2023

TLT-school: 非母语儿童语音语料库

本文描述了在意大利北部学校收集的 “TLT - 学校” 语音语料库，旨在评估学习英语和德语的学生的表现，并介绍了手动转录话语的指南和过程，同时开发了自动语音识别系统，部分语料库将免费分配给科学研究人员。

Jan, 2020

用于语音识别和翻译的多语种 TEDx 语料库

我们提供了一个多语言 TEDx 语料库，支持语音识别和语音翻译的研究，可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合，提供了 8 个源语言，我们将转录分割成句子，并将它们与源语言音频和目标语言翻译对齐。此外，我们提供基线模型，包括多语种模型，以提高低资源语种的翻译性能。

Feb, 2021

计算语言学文档实验用的极低资源语音语料库

这篇论文介绍了一个收集自非洲 Bantu C25 语族中的一种语言 Mboshi 的语音语料库，在几乎零的资源条件下构建了该语料库，并利用其中的数据完成了口语术语发现。该论文讨论了如何收集，清理和处理数据，并将该数据集提供给社区进行可重现的计算语言文献研究和评估。

Oct, 2017

ChiSCor：荷兰儿童自由叙述的奇幻故事语料库，供计算语言学和认知科学使用

本研究详细介绍了 ChiSCor 的构建过程，并展示了其在三个简短的案例研究中的潜力：首先，展示了故事的句法复杂度在儿童年龄段之间相对稳定；其次，扩展了关于自由言论中 Zipf 分布的研究并展示了 ChiSCor 与社会环境反映了 Zipf 定律的密切相关性；第三，展示了即使 ChiSCor 规模相对较小，该语料库仍足够丰富，可以训练信息丰富的词形向量，用于分析儿童的语言使用。最后，我们对叙事数据集在计算语言学中的价值进行了思考。

Oct, 2023

增强式儿童语音识别技术的改进

儿童语音识别的表现有待提高，本研究通过对现有数据集中的儿童语音和额外的儿童说话人进行单语和跨语言转换来研究儿童间的语音转换，结果表明跨语言儿童间语音转换能显著提高儿童语音识别性能。对儿童间跨语言语音转换产生的数据量对微调自注意力模型和 Whisper 模型的影响实验结果显示，对微调自注意力模型使用两倍数据和对从头训练的模型使用六倍数据取得了最佳效果，相较于基准线而言，两者分别使词错误率 (WER) 绝对减少了约 3% 和提高了 3.6%。此外，使用少量 “高质量” 语音转换生成的数据也能取得类似最佳微调模型的效果。

Jun, 2024

VoiceBank-2023：用于构建语音障碍患者个性化 TTS 系统的多说话人普通话语音语料库

台湾在 2020 年启动了 VoiceBanking 项目，旨在为肌萎缩性侧索硬化症患者提供个性化的普通话语音合成系统。本文报道了 VoiceBanking 项目中语料库设计、录制、数据整理和修正，以及开发的个性化普通话语音合成系统的评估。

Aug, 2023

BSTC：中英文大规模语音翻译数据集

本文介绍了 BSTC (Baidu Speech Translation Corpus) 数据集，该数据集基于一组讲座授权视频构建，包括约 68 小时的普通话数据、它们的手动转录和英语翻译，以及自动语音识别 (ASR) 模型的自动转录。我们进一步邀请了三名经验丰富的口译员在模拟会议场景中同时口译测试讲座。预计该语料库将促进自动同声传译的研究以及实用系统的开发。我们组织了同声传译任务，并使用该语料库评估了自动同声传译系统。

Apr, 2021

自閉症譜系障礙韓國兒童言語語料庫：朝向自動評估系統

本文介绍了一个专门针对韩国自闭症儿童开发的语音语料库，旨在推进发音和严重程度评估等语音技术。通过对自闭症儿童的语音和语言评估会话录音进行转录和注释，提取语音数据并分析语音和语言特征，揭示了自闭症儿童的一些与典型发育儿童或通过临床评分分类的自闭症亚组有所不同的语音和语言特征，为社交沟通严重程度和发音熟练度的自动评估系统的开发提供了潜力。

Feb, 2024