GigaST：一份拥有 10,000 小时的伪语音翻译语料库

Apr, 2022

GigaST：一份拥有 10,000 小时的伪语音翻译语料库

GigaST: A 10,000-hour Pseudo Speech Translation Corpus

Rong Ye, Chengqi Zhao, Tom Ko, Chutong Meng, Tao Wang...

TL;DR本文介绍 GigaST 数据集，它是一个大规模的伪语音转换语料库，通过翻译英文 ASR 语料库 GigaSpeech 到德语和中文等加入大量的机器翻译的数据用于训练，最终的 ST 模型在 MuST-C 英语 - 德语基准测试集中获得了最新的最好成果。

Abstract

This paper introduces GigaST, a large-scale pseudo speech translation (ST) corpus. We create the corpus by translating the text in GigaSpeech, an English →

pseudo speech translation asr corpus machine translation benchmark test speech translation

发现论文，激发创造

GigaSpeech: 一个拥有 10,000 小时转录音频的不断发展的多领域 ASR 语料库

本论文介绍了一个新的、多领域的英语语音识别语料库 ——GigaSpeech，它包含了来自有声读物、播客和 YouTube 等各种领域的高质量标记音频，提供了五个不同大小的训练子集，并提出了一种新的强制对齐和分割管道来创建适用于语音识别训练的句子段，并过滤出低质量的转录片段。最终在 Athena、ESPnet、Kaldi 和 Pika 等流行的语音识别工具包上，提供了基准系统。

Jun, 2021

GigaSpeech 2：用于低资源语种的演进、大规模、多领域的 ASR 语料库的自动爬取、转写和优化

这篇论文介绍了 GigaSpeech 2，一个为低资源语言设计的大规模、多领域、多语种的语音识别语料库，它不依赖于配对的语音和文本数据。该论文还介绍了一个自动化的数据爬取、转录和标签优化流程，以及通过修改的 Noisy Student Training 来进一步提高模型性能。实验结果证明了该语料库高质量和广泛适用性，并且相比于 Whisper large-v3 模型，基于 GigaSpeech 2 训练的 ASR 模型在泰语、印尼语和越南语的测试集上可以将词错误率降低 25% 至 40%。同时，与商业服务相比，基于 GigaSpeech 2 训练的 ASR 模型也能取得更好的性能。我们相信我们引入的语料库和流程将为低资源语音识别开辟新的研究途径并极大地促进该领域的研究。

Jun, 2024

BSTC：中英文大规模语音翻译数据集

本文介绍了 BSTC (Baidu Speech Translation Corpus) 数据集，该数据集基于一组讲座授权视频构建，包括约 68 小时的普通话数据、它们的手动转录和英语翻译，以及自动语音识别 (ASR) 模型的自动转录。我们进一步邀请了三名经验丰富的口译员在模拟会议场景中同时口译测试讲座。预计该语料库将促进自动同声传译的研究以及实用系统的开发。我们组织了同声传译任务，并使用该语料库评估了自动同声传译系统。

Apr, 2021

STT4SG-350: 一份面向瑞士所有德语方言地区的语音语料库

提供了一份瑞士德语语音的语料库，包含了来自各个方言区的 316 名发言者的 343 小时语音数据，并提供了这些发言者的方言、年龄和性别信息。该语料库适用于自动语音识别、文本到语音、方言识别和说话人识别等应用领域，并提供了训练集、验证集和测试集，训练出的模型在测试集上取得了较好的效果。

May, 2023

CoVoST 2 和大规模多语音言语音到文本翻译

发布 CoVoST 2 语料库，其中包括来自 21 种语言翻译成英语和从英语翻译成 15 种语言的大规模多语言语音翻译语料库，此数据集是目前总量最大、语言覆盖面最广的公开数据集，同时提供 extensive 的语音识别、双语和多语言机器翻译及语音翻译的基线结果。

Jul, 2020

CoVoST: 一个多样化的多语种语音到文本翻译语料库

本文介绍了 CoVoST—— 一个多语言的语音 - 文本翻译语料库，并提供了详细的数据集创建方法、数据质量实证和多语言翻译模型的前期实验成果。

Feb, 2020

用于语音识别和翻译的多语种 TEDx 语料库

我们提供了一个多语言 TEDx 语料库，支持语音识别和语音翻译的研究，可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合，提供了 8 个源语言，我们将转录分割成句子，并将它们与源语言音频和目标语言翻译对齐。此外，我们提供基线模型，包括多语种模型，以提高低资源语种的翻译性能。

Feb, 2021

LibriS2S: 一份德英语音到语音翻译语料库

该研究找出了语音到语音翻译领域所面临的主要限制是缺乏合适的培训数据。为了解决这个问题，研究人员创建了一个公开可用的语音到语音训练语料库 ——LibriS2S。基于这个语料库，提出了基于 FastSpeech 2 模型的新文本到语音模型，以及如何使模型直接根据源语言的发音来生成语音信号。

Apr, 2022

众包数据中噪音对语音翻译的影响

本研究提出了一种自动的解决 MuST-C 语音翻译数据集中存在的质量问题的方法，使得标准测试集合的质量得到提高，模型发展的结果也得到了一致的认可。

Jun, 2022

CVSS Corpus 和大规模多语言语音到语音翻译

该论文介绍了一种名为 CVSS 的大规模多语言至英语语音翻译 (S2ST) 语料库，可以从 21 种语言中提取平行的语句级别的 S2ST 对，并用最先进的 TTS 系统将 CoVoST 2 的翻译文本合成语音。此外，研究构建了基线多语言直接 S2ST 模型和串联 S2ST 模型，并对该语料库的有效性进行了验证。

Jan, 2022