休斯顿,我们遇到了分歧:ASR 模型的子群绩效分析
本研究描述了一个庞大的语音数据集的构建过程,并利用该数据集评估了印度不同演讲者的性别、籍贯、年龄和语速对 YouTube 自动字幕和 OpenAI Whisper 模型性能的影响。结果表明需要更具包容性和鲁棒性的 ASR 系统以及更具代表性的数据集进行差异性评估。
Jul, 2023
使用一种探测方法,发现了 ASR 系统处理在 L2 英语方言中的发音差异时,出现了声素级别的错误并产生了更高的 WER。这项工作系统地说明了 ASR 的行为,通过确定特定问题的物质来源来提高 ASR 的准确性。
May, 2023
该研究提出了一种语音识别系统,专门用于适应资源有限的印度语言,采用 ASR 模型和 KenLM 语言模型,取得了较低的错误率。
Jul, 2023
本研究提出了一种基于语音语料库分歧的无监督目标感知数据选择方法,使用自监督 Hubert 模型将语音语料库离散化为标签序列,计算 N-gram 概率分布,并计算 N-gram 之间的 KL 散度作为 SCD,从而选择与目标语料库具有最小 SCD 的子集进行注释和训练。与以往的数据选择方法相比,SCD 数据选择方法可以关注更多的声学细节并保证所选集的多样性。在 Common Voice 的不同口音上进行评估,实验结果表明,所提出的 SCD 数据选择方法可以实现 14.8% 的相对改进,与有监督的选择结果相当或甚至更好。
Feb, 2023
本文详细分析了 Whisper 输出,并提出了精细调整和软提示调整两种解决方案,实验证明我们可以有效地改变 Whisper 的解码行为,生成与口语回答中准确的单词。
Jul, 2023
改善低资源语言夏威夷语的自动语音识别(ASR)的挑战,通过将大量独立文本数据整合到 Whisper 基础模型中,我们采用约 1.5M 字的夏威夷文本数据训练了外部语言模型(LM)。然后,我们使用该语言模型对 Whisper 进行评分,并计算标记的夏威夷数据测试集的词错误率(WER)。实验结果显示,在用夏威夷语言模型重新评分 ASR 输出时,WER 有小幅但显著的改善。结果支持在开发代表性语言的 ASR 系统时利用所有可用数据。
Apr, 2024
本研究介绍了一种用于从有声读物生成 ASR 训练数据集的新型流程,以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本,并将其分割成适合 ASR 训练的长度,简化了资源稀缺语言中 ASR 系统的数据准备工作,并通过对亚美尼亚语的案例研究证明了其应用价值。这种方法可以适用于许多资源稀缺语言,不仅解决了数据匮乏问题,还提高了低资源语言的 ASR 模型性能。
Jun, 2024
通过利用语音和文本资源采用适应和微调技术,提高了印度语言 Bengali 和 Bhojpuri 的自动语音识别(ASR)性能,并通过多模态数据了解每种模态在构建可靠 ASR 方面的重要程度以及解决全球各种语言中的低资源问题的潜在解决方案。
Jul, 2023
这篇论文研究了使用无监督学习的方法,包括语音分割,语音信号到文本的映射和半监督模型来实现自动语音识别,以识别从语音数据中可以学到的极限并理解语音识别的最小要求,目的是为了在开发低资源语言的语音识别系统时优化资源和努力。
Jun, 2021