TALCS：一份开源的汉英混杂语料库及其语音识别基准

Jun, 2022

TALCS：一份开源的汉英混杂语料库及其语音识别基准

TALCS: An Open-Source Mandarin-English Code-Switching Corpus and a Speech Recognition Baseline

Chengfei Li, Shuhao Deng, Yaoping Wang, Guangjing Wang, Yaguang Gong...

TL;DR本文介绍了一种新的普通话 - 英语混用语音识别语料库 (TALCS corpus)，适用于训练和评估混合语音识别系统。使用 TALCS 语料库，作者在两个流行的语音识别工具包（ESPnet 和 Wenet）上进行实验以构建基线系统，证明了录音和转录的质量很有前途且基线系统可行。

Abstract

This paper introduces a new corpus of mandarin-english code-switching speech recognition--talcs corpus, suitable for training and evaluating code-switching →

mandarin-english code-switching speech recognition talcs corpus asr dataset baseline system

发现论文，激发创造

2022 年 ISCSLP 中英混合语音识别挑战赛摘要

本文介绍了 ISCSLP 2022 中英文混合自动语音识别（CSASR）挑战赛，包括训练集、开发集和测试集等数据，以及参赛队伍的表现和技术。其中获胜队伍在测试集上取得了 16.70% 的混合误差率（MER）表现，并且相对基准系统取得了 9.8% 的 MER 绝对改善。

Oct, 2022

ASRU 2019 年中英混合口语识别挑战赛：公开数据集、赛道、方法与结果

该研究介绍了 ASRU 2019 普通话 - 英语代码转换语音识别挑战赛，旨在提高普通话 - 英语代码转换情况下的 ASR 性能。参与者可以使用 500 小时标准普通话语音数据和 240 小时普通话 - 英语混合语音数据。本文总结了三个跟踪中的结果以及系统性能，并讨论了模型训练和方法比较的其他细节。

Jul, 2020

用于语音识别和翻译的多语种 TEDx 语料库

我们提供了一个多语言 TEDx 语料库，支持语音识别和语音翻译的研究，可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合，提供了 8 个源语言，我们将转录分割成句子，并将它们与源语言音频和目标语言翻译对齐。此外，我们提供基线模型，包括多语种模型，以提高低资源语种的翻译性能。

Feb, 2021

WenetSpeech：一个拥有 10,000 多小时的多领域普通话语音语料库用于语音识别

WenetSpeech 是当前最大的开源普通话语音语料库，其包含 10000 小时以上高质量语音数据、2400 小时弱标注语音数据以及大约 10000 小时无标注语音数据，以及采集自多个场景下的数据，采用 OCR 及高质量 ASR 转录进行语音文本对齐，利用自研的端到端标签错误检测方法进一步筛选数据后，提供了工具集如 Kaldi、ESPnet 等，并基于三个不同测试集对其进行了基准测试。

Oct, 2021

AISHELL-1: 一个开放源代码的汉语语音数据集与基准语音识别系统

发布了名为 AISHELL-1 的开源普通话语音语料库，是目前适用于进行普通话语音识别研究和构建普通话语音识别系统的最大语料库，实验结果表明音频录制和转录的质量是有前途的。

Sep, 2017

TaL：一份同步的多说话人的舌头超声成像、音频和嘴唇视频语料库

本文介绍了 Tongue and Lips 语料库（TaL）的数据来源和处理方式，并在多个任务上对该语料库进行了基准测试，结果表明 TaL 可以用于语音识别和语音合成等任务。

Nov, 2020

BSTC：中英文大规模语音翻译数据集

本文介绍了 BSTC (Baidu Speech Translation Corpus) 数据集，该数据集基于一组讲座授权视频构建，包括约 68 小时的普通话数据、它们的手动转录和英语翻译，以及自动语音识别 (ASR) 模型的自动转录。我们进一步邀请了三名经验丰富的口译员在模拟会议场景中同时口译测试讲座。预计该语料库将促进自动同声传译的研究以及实用系统的开发。我们组织了同声传译任务，并使用该语料库评估了自动同声传译系统。

Apr, 2021

推进语音翻译：普通话 - 英语电话会话语料库

本文介绍了英语翻译，适用于部分通话家庭普通话数据和香港科技大学普通话电话语音数据的语音翻译任务。研究表明，将通用翻译模型微调为普通话 - 英语对话电话语音训练集可以使目标领域 BLEU 提高 8 个百分点以上，突显了配对训练数据的重要性。

Mar, 2024

语音拼贴：通过拼贴单语语料库的混合交替生成语音

本文介绍了一种通过拼接音频片段从单语语料库中合成 Code-Switching 数据的 Speech Collage 方法，并通过重叠添加方法提高音频生成的平滑度。我们研究了生成的数据对语音识别的影响，在使用领域内 Code-Switching 文本和合成的 Code-Switching 文本的零样本方法下，实证结果显示相对于领域内和零样本场景，混合错误率和词错误率分别降低了 34.4％和 16.2％。最后，我们证明了 Code-Switching 增强了模型的 Code-Switching 倾向并减少了其单语偏见。

Sep, 2023

揭示基于 LLM 的中文开源数据集上的 ASR 潜力

基于大型语言模型的自动语音识别研究，探索了多种配置下的语音编码器、语言模型和投影模块对 ASR 性能的影响，采用三阶段训练方法实现了在中文数据集上的最佳表现，为未来 LLM 基于 ASR 系统的研究提供了实证基础和性能优化的见解。

May, 2024