AS-70：一份供自动语音识别和口吃事件检测使用的普通话口吃语音数据集

Jun, 2024

AS-70：一份供自动语音识别和口吃事件检测使用的普通话口吃语音数据集

AS-70: A Mandarin stuttered speech dataset for automatic speech recognition and stuttering event detection

Rong Gong, Hongfei Xue, Lezhi Wang, Xin Xu, Qisheng Li...

TL;DR通过引入 AS-70，首个公开可用的普通话口吃语音数据集，本研究旨在改善自动语音识别（ASR）模型在口吃语音上表现的效果。该数据集包括对话和语音命令朗读内容的逐字手工转录，适用于多种与语音相关的任务。实验结果表明，通过将此数据集应用于模型微调，可以显著改善现有 ASR 模型的性能，提高了对口吃语音的包容性。

Abstract

The rapid advancements in speech technologies over the past two decades have led to human-level performance in tasks like automatic speech recognition (ASR) for fluent speech. However, the efficacy of these model

speech technologies automatic speech recognition stuttering mandarin stuttered speech dataset asr models

发现论文，激发创造

粤语自动语音识别数据集：调查与新数据集

本研究利用多领域广泛覆盖的香港粤语语料库 (MDCC)，采用多数据集学习技术提高 Fairseq S2T Transformer 自动语音识别模型在香港粤语方言中的有效性。

Jan, 2022

香港中文大学口吃言语识别系统的最新进展

本文介绍了中国香港中文大学对自动语音识别技术中有关于不正常发音语音的识别问题展开的最新研究成果，利用了新型建模技术和 Bayesian model adaptation 等方法，最终取得了乌阿里语（UASpeech）失语症语音库上最低的 25.21% 字误率（WER），并在多方面相对于 2018 年的同类系统均有较大提升

Jan, 2022

MSR-86K：一个包含 86,300 小时语音转换文本的多语种演变语料库，用于语音识别研究

该论文介绍了 MSR-86K，这是一个逐渐增长的大规模多语言语音识别研究语料库，由 YouTube 上公开可访问的视频转录数据组成，包括 15 种语言和总共 86300 小时的 ASR 数据。同时，该论文还介绍了如何使用 MSR-86K 语料库和其他开源语料库来训练一个与 Whisper 相媲美的强大的多语言语音识别模型。我们将在 HuggingFace 上公开发布 MSR-86K，相信这样一个大规模的语料库将为多语言语音识别的研究开辟新的道路。

Jun, 2024

失传于转录：识别和量化自动语音识别系统对不流利语音的准确性偏差

这项研究评估了六个领先的自动语音识别系统对有语吃现象的言语的处理性能，并发现这些系统普遍存在的准确性偏差对不流利言语的处理，导致语法和语义不准确的转录，揭示了当前自动语音识别技术存在的重要差距，强调了有效的偏见缓解策略的必要性。

May, 2024

ASR Bundestag：德国大规模政治辩论数据集

ASR Bundestag 是一个关于德语自动语音识别的数据集，包括 610 小时对齐的音频文本对以进行监督式训练及 1038 小时未标注的音频片段以便进行自监督学习。

Feb, 2023

揭示基于 LLM 的中文开源数据集上的 ASR 潜力

基于大型语言模型的自动语音识别研究，探索了多种配置下的语音编码器、语言模型和投影模块对 ASR 性能的影响，采用三阶段训练方法实现了在中文数据集上的最佳表现，为未来 LLM 基于 ASR 系统的研究提供了实证基础和性能优化的见解。

May, 2024

ASTER：面向口吃者的自动语音识别系统可访问性测试

提供一种用于测试和分析自动语音识别系统性能的测试用例生成方法，该方法通过模拟真实的口吃语音并注入多种不同类型的口吃来生成有效的测试用例，并在评估中明显增加了评估的 ASR 系统的词误差率、匹配错误率和词信息损失。

Aug, 2023

利用 Detect and Pass 增强有限数据的口吃语音 ASR

为解决语音助手对口吃 (Speech Disorder) 人士不友好的问题，研究提出了一种简单高效的称为 “Detect and Pass” 的算法，它通过一个上下文相关的对口吃音频帧分类器，对口吃的音频进行筛选，再将这些筛选的结果传递到 ASR 模型中提高其错误率的鲁棒性。该研究表明在不同的 ASR 系统上，WER 的降低幅度达到了 23.93% 到 71.67%.

Feb, 2022

NPTEL MOOC 数千个视频间的单词错误率差异的深入研究

本研究描述了一个庞大的语音数据集的构建过程，并利用该数据集评估了印度不同演讲者的性别、籍贯、年龄和语速对 YouTube 自动字幕和 OpenAI Whisper 模型性能的影响。结果表明需要更具包容性和鲁棒性的 ASR 系统以及更具代表性的数据集进行差异性评估。

Jul, 2023

工业级多语种自动语音识别的解剖

描述了 AssemblyAI 的工业规模自动语音识别（ASR）系统的结构和性能优势，包括模型架构、词错误率、代码切换能力等关键方面。

Apr, 2024