HK-LegiCoST: 利用非逐字稿件进行语音翻译

Jun, 2023

HK-LegiCoST: 利用非逐字稿件进行语音翻译

HK-LegiCoST: Leveraging Non-Verbatim Transcripts for Speech Translation

PDF

Cihan Xiao, Henry Li Xinyuan, Jinyi Yang, Dongji Gao, Matthew Wiesner...

TL;DRHK-LegiCoST 是一个新的三方平行语料库，包含 600 多小时的粤语音频、其标准繁体中文文本和英文翻译，可用于研究粤语非笔录文本的语音翻译。

Abstract

We introduce hk-legicost, a new three-way parallel corpus of cantonese-English translations, containing 600+ hours of →

hk-legicost parallel corpus speech translation cantonese non-verbatim transcripts

发现论文，激发创造

推进语音翻译：普通话 - 英语电话会话语料库

本文介绍了英语翻译，适用于部分通话家庭普通话数据和香港科技大学普通话电话语音数据的语音翻译任务。研究表明，将通用翻译模型微调为普通话 - 英语对话电话语音训练集可以使目标领域 BLEU 提高 8 个百分点以上，突显了配对训练数据的重要性。

Mar, 2024

编制及理论基础：一个包含中英双语儿童非母语言音频语料库

本研究介绍了一个由 50 名中英双语 5-6 岁儿童故事叙述构成的非母语英语语音语料库，提供了 6.5 个小时的儿童在英语（L2）故事理解测试中的文本、语法和发音错误的标注记录和人工评级分数。本语料库可用于第二语言教学，并有助于提高自动语音识别（ASR）的总体性能。

Apr, 2023

使用法语翻译扩充 Librispeech：一种用于直接语音翻译评估的多模态语料库

本文介绍了使用 LibriSpeech 增强现有单语语料库的方法，建立起一种包含源语言中的语音与目标语言中的文本的大型开放式平行语料库，并给出了相应的处理细节和手动评估结果，该平行语料库可以用于直接语音翻译或其他口语翻译实验。

Feb, 2018

LibriVoxDeEn: 一个用于德语到英语语音翻译和德语语音识别的语料库

该研究提供一个德语语音、德语文本和英语翻译的平行语料库，以德语有声读物为基础，包括 110 小时的音频材料，对齐了超过 50k 句平行句子，并且提供了更大的数据集，包括 547 小时的德语语音对齐了德语文本，同时为德语语音识别和德语到英语的端到端翻译提供了大量的资源。

Oct, 2019

用于语音识别和翻译的多语种 TEDx 语料库

我们提供了一个多语言 TEDx 语料库，支持语音识别和语音翻译的研究，可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合，提供了 8 个源语言，我们将转录分割成句子，并将它们与源语言音频和目标语言翻译对齐。此外，我们提供基线模型，包括多语种模型，以提高低资源语种的翻译性能。

Feb, 2021

BSTC：中英文大规模语音翻译数据集

本文介绍了 BSTC (Baidu Speech Translation Corpus) 数据集，该数据集基于一组讲座授权视频构建，包括约 68 小时的普通话数据、它们的手动转录和英语翻译，以及自动语音识别 (ASR) 模型的自动转录。我们进一步邀请了三名经验丰富的口译员在模拟会议场景中同时口译测试讲座。预计该语料库将促进自动同声传译的研究以及实用系统的开发。我们组织了同声传译任务，并使用该语料库评估了自动同声传译系统。

Apr, 2021

GigaST：一份拥有 10,000 小时的伪语音翻译语料库

本文介绍 GigaST 数据集，它是一个大规模的伪语音转换语料库，通过翻译英文 ASR 语料库 GigaSpeech 到德语和中文等加入大量的机器翻译的数据用于训练，最终的 ST 模型在 MuST-C 英语 - 德语基准测试集中获得了最新的最好成果。

Apr, 2022

CoVoST: 一个多样化的多语种语音到文本翻译语料库

本文介绍了 CoVoST—— 一个多语言的语音 - 文本翻译语料库，并提供了详细的数据集创建方法、数据质量实证和多语言翻译模型的前期实验成果。

Feb, 2020

CoVoST 2 和大规模多语音言语音到文本翻译

发布 CoVoST 2 语料库，其中包括来自 21 种语言翻译成英语和从英语翻译成 15 种语言的大规模多语言语音翻译语料库，此数据集是目前总量最大、语言覆盖面最广的公开数据集，同时提供 extensive 的语音识别、双语和多语言机器翻译及语音翻译的基线结果。

Jul, 2020

TALCS：一份开源的汉英混杂语料库及其语音识别基准

本文介绍了一种新的普通话 - 英语混用语音识别语料库 (TALCS corpus)，适用于训练和评估混合语音识别系统。使用 TALCS 语料库，作者在两个流行的语音识别工具包（ESPnet 和 Wenet）上进行实验以构建基线系统，证明了录音和转录的质量很有前途且基线系统可行。

Jun, 2022