TALCS:一份开源的汉英混杂语料库及其语音识别基准
本文介绍了 ISCSLP 2022 中英文混合自动语音识别(CSASR)挑战赛,包括训练集、开发集和测试集等数据,以及参赛队伍的表现和技术。其中获胜队伍在测试集上取得了 16.70% 的混合误差率(MER)表现,并且相对基准系统取得了 9.8% 的 MER 绝对改善。
Oct, 2022
该研究介绍了 ASRU 2019 普通话 - 英语代码转换语音识别挑战赛,旨在提高普通话 - 英语代码转换情况下的 ASR 性能。参与者可以使用 500 小时标准普通话语音数据和 240 小时普通话 - 英语混合语音数据。本文总结了三个跟踪中的结果以及系统性能,并讨论了模型训练和方法比较的其他细节。
Jul, 2020
我们提供了一个多语言 TEDx 语料库,支持语音识别和语音翻译的研究,可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合,提供了 8 个源语言,我们将转录分割成句子,并将它们与源语言音频和目标语言翻译对齐。此外,我们提供基线模型,包括多语种模型,以提高低资源语种的翻译性能。
Feb, 2021
WenetSpeech 是当前最大的开源普通话语音语料库,其包含 10000 小时以上高质量语音数据、2400 小时弱标注语音数据以及大约 10000 小时无标注语音数据,以及采集自多个场景下的数据,采用 OCR 及高质量 ASR 转录进行语音文本对齐,利用自研的端到端标签错误检测方法进一步筛选数据后,提供了工具集如 Kaldi、ESPnet 等,并基于三个不同测试集对其进行了基准测试。
Oct, 2021
发布了名为 AISHELL-1 的开源普通话语音语料库,是目前适用于进行普通话语音识别研究和构建普通话语音识别系统的最大语料库,实验结果表明音频录制和转录的质量是有前途的。
Sep, 2017
本文介绍了 Tongue and Lips 语料库(TaL)的数据来源和处理方式,并在多个任务上对该语料库进行了基准测试,结果表明 TaL 可以用于语音识别和语音合成等任务。
Nov, 2020
本文介绍了 BSTC (Baidu Speech Translation Corpus) 数据集,该数据集基于一组讲座授权视频构建,包括约 68 小时的普通话数据、它们的手动转录和英语翻译,以及自动语音识别 (ASR) 模型的自动转录。我们进一步邀请了三名经验丰富的口译员在模拟会议场景中同时口译测试讲座。预计该语料库将促进自动同声传译的研究以及实用系统的开发。我们组织了同声传译任务,并使用该语料库评估了自动同声传译系统。
Apr, 2021
本文介绍了英语翻译,适用于部分通话家庭普通话数据和香港科技大学普通话电话语音数据的语音翻译任务。研究表明,将通用翻译模型微调为普通话 - 英语对话电话语音训练集可以使目标领域 BLEU 提高 8 个百分点以上,突显了配对训练数据的重要性。
Mar, 2024
本文介绍了一种通过拼接音频片段从单语语料库中合成 Code-Switching 数据的 Speech Collage 方法,并通过重叠添加方法提高音频生成的平滑度。我们研究了生成的数据对语音识别的影响,在使用领域内 Code-Switching 文本和合成的 Code-Switching 文本的零样本方法下,实证结果显示相对于领域内和零样本场景,混合错误率和词错误率分别降低了 34.4%和 16.2%。最后,我们证明了 Code-Switching 增强了模型的 Code-Switching 倾向并减少了其单语偏见。
Sep, 2023
基于大型语言模型的自动语音识别研究,探索了多种配置下的语音编码器、语言模型和投影模块对 ASR 性能的影响,采用三阶段训练方法实现了在中文数据集上的最佳表现,为未来 LLM 基于 ASR 系统的研究提供了实证基础和性能优化的见解。
May, 2024