HK-LegiCoST: 利用非逐字稿件进行语音翻译
本文介绍了英语翻译,适用于部分通话家庭普通话数据和香港科技大学普通话电话语音数据的语音翻译任务。研究表明,将通用翻译模型微调为普通话 - 英语对话电话语音训练集可以使目标领域 BLEU 提高 8 个百分点以上,突显了配对训练数据的重要性。
Mar, 2024
本研究介绍了一个由 50 名中英双语 5-6 岁儿童故事叙述构成的非母语英语语音语料库,提供了 6.5 个小时的儿童在英语(L2)故事理解测试中的文本、语法和发音错误的标注记录和人工评级分数。本语料库可用于第二语言教学,并有助于提高自动语音识别(ASR)的总体性能。
Apr, 2023
本文介绍了使用 LibriSpeech 增强现有单语语料库的方法,建立起一种包含源语言中的语音与目标语言中的文本的大型开放式平行语料库,并给出了相应的处理细节和手动评估结果,该平行语料库可以用于直接语音翻译或其他口语翻译实验。
Feb, 2018
该研究提供一个德语语音、德语文本和英语翻译的平行语料库,以德语有声读物为基础,包括 110 小时的音频材料,对齐了超过 50k 句平行句子,并且提供了更大的数据集,包括 547 小时的德语语音对齐了德语文本,同时为德语语音识别和德语到英语的端到端翻译提供了大量的资源。
Oct, 2019
我们提供了一个多语言 TEDx 语料库,支持语音识别和语音翻译的研究,可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合,提供了 8 个源语言,我们将转录分割成句子,并将它们与源语言音频和目标语言翻译对齐。此外,我们提供基线模型,包括多语种模型,以提高低资源语种的翻译性能。
Feb, 2021
本文介绍了 BSTC (Baidu Speech Translation Corpus) 数据集,该数据集基于一组讲座授权视频构建,包括约 68 小时的普通话数据、它们的手动转录和英语翻译,以及自动语音识别 (ASR) 模型的自动转录。我们进一步邀请了三名经验丰富的口译员在模拟会议场景中同时口译测试讲座。预计该语料库将促进自动同声传译的研究以及实用系统的开发。我们组织了同声传译任务,并使用该语料库评估了自动同声传译系统。
Apr, 2021
本文介绍 GigaST 数据集,它是一个大规模的伪语音转换语料库,通过翻译英文 ASR 语料库 GigaSpeech 到德语和中文等加入大量的机器翻译的数据用于训练,最终的 ST 模型在 MuST-C 英语 - 德语基准测试集中获得了最新的最好成果。
Apr, 2022
本文介绍了 CoVoST—— 一个多语言的语音 - 文本翻译语料库,并提供了详细的数据集创建方法、数据质量实证和多语言翻译模型的前期实验成果。
Feb, 2020
发布 CoVoST 2 语料库,其中包括来自 21 种语言翻译成英语和从英语翻译成 15 种语言的大规模多语言语音翻译语料库,此数据集是目前总量最大、语言覆盖面最广的公开数据集,同时提供 extensive 的语音识别、双语和多语言机器翻译及语音翻译的基线结果。
Jul, 2020
本文介绍了一种新的普通话 - 英语混用语音识别语料库 (TALCS corpus),适用于训练和评估混合语音识别系统。使用 TALCS 语料库,作者在两个流行的语音识别工具包(ESPnet 和 Wenet)上进行实验以构建基线系统,证明了录音和转录的质量很有前途且基线系统可行。
Jun, 2022