基于 ASR 的阅读启蒙导师:如何优化对一年级学生的反馈
本研究探讨了现有的最先进预训练自动语音识别(ASR)模型在识别荷兰语为母语的儿童语音和检测阅读错误方面的效果,发现 Hubert Large 在荷兰语儿童语音识别方面达到最佳表现(23.1% 的音位级错误率),而 Whisper(Faster Whisper Large-v2)则在词级表现最佳(9.8% 的词错误率)。此外,Wav2Vec2 Large 和 Whisper 是用于阅读错误检测的两个最佳 ASR 模型,其中 Wav2Vec2 Large 的召回率最高(0.83),而 Whisper 的精确度和 F1 得分均为 0.52。
Jun, 2024
本研究提出了一种自动语音识别模型,旨在诊断具有言语音韵障碍(SSDs)的儿童的发音问题,以替代临床操作中的人工转录。该模型使用 wav2vec 2.0 XLS-R 模型进行改进,以识别实际发音而不是已有单词,并通过与人工标注相匹配的预测准确性达到约 90% 的水平。尽管该模型在识别不清晰发音方面仍需改进,但本研究表明 ASR 模型能够简化临床领域中的复杂发音错误诊断流程。
Mar, 2024
自动语音识别(ASR)是计算语言学的一个关键领域,主要研究开发能够使计算机将口语转换为文本的技术。该研究聚焦于开发基于 JavaScript 和 Node.js 的网络应用程序和语音识别的网络界面,使用监督学习训练改善语音识别的神经网络,并设计对声音信号进行准确对齐的新型反向传播方法。
Jun, 2024
本文提出了一个自动语音识别后处理模型,旨在将不正确和嘈杂的 ASR 输出转换为可读的文本,并使用元数据提取语料库构建了一种任务特定的数据集,并使用两阶段训练策略来微调 RoBERTa 预训练模型。在测试集上,我们的模型在可读性感知 WER(RA-WER)上比基线模型提高了 13.26%,在 BLEU 度量上提高了 17.53%。人类评估还证明我们的方法可以生成比基线更易读的转录本。
Feb, 2021
这项研究评估了六个领先的自动语音识别系统对有语吃现象的言语的处理性能,并发现这些系统普遍存在的准确性偏差对不流利言语的处理,导致语法和语义不准确的转录,揭示了当前自动语音识别技术存在的重要差距,强调了有效的偏见缓解策略的必要性。
May, 2024
研究评估了两个最先进的自动语音识别系统 Wav2Vec2.0 和 Whisper AI 的性能,以开发一个可以支持儿童学习外语的语音机器人,并探究使用 ASR 技术提供对孩子的发音和流利度的洞察力的效用
Jun, 2023
近期在自动语音识别系统(ASR)方面的最新进展,如 Whisper,已经显示出这些系统在充足的数据支持下能够接近人类水平的性能。然而,由于适合儿童的特定数据库的有限性以及儿童语音的独特特征,这一进展并不容易延伸到儿童 ASR 领域。最近的一项研究调查了利用 My Science Tutor (MyST) 儿童语音语料库提高 Whisper 在儿童语音识别方面的性能。本文在此基础上通过更高效的数据预处理提升了 MyST 数据集的实用性,同时还强调了改善儿童 ASR 性能的重要挑战。结果展示了将 Whisper 有效集成到改善儿童语音识别领域的可行性和高效性。
Sep, 2023