谁说了什么?幼儿园课堂言语分析的自动化方法
自动语音识别在成人英语语音方面显示出超人的表现,但在儿童语音方面表现不佳。最新的数据驱动语音识别技术包括 Transformer 架构和前所未有的训练数据量,可能会为儿童语音识别和面向儿童的社交机器人应用带来突破。我们重新审视了 2017 年的一项关于儿童语音识别的研究,并表明性能确实有所提高,新晋的 OpenAI Whisper 相比领先的商业云服务表现明显更好。尽管转录还不完美,但最佳模型可以正确识别 60.3% 的句子,除了一些小的语法差异,使用本地 GPU 运行的亚秒级转录时间显示出可用于自主儿童 - 机器人语音交互的潜力。
Apr, 2024
近期在自动语音识别系统(ASR)方面的最新进展,如 Whisper,已经显示出这些系统在充足的数据支持下能够接近人类水平的性能。然而,由于适合儿童的特定数据库的有限性以及儿童语音的独特特征,这一进展并不容易延伸到儿童 ASR 领域。最近的一项研究调查了利用 My Science Tutor (MyST) 儿童语音语料库提高 Whisper 在儿童语音识别方面的性能。本文在此基础上通过更高效的数据预处理提升了 MyST 数据集的实用性,同时还强调了改善儿童 ASR 性能的重要挑战。结果展示了将 Whisper 有效集成到改善儿童语音识别领域的可行性和高效性。
Sep, 2023
该研究提出了一种全自动的方法来识别语音记录中的语音异常,以帮助评估语音障碍。结合连续时间分类(CTC)和基于编码器 - 解码器的自动语音识别模型,生成丰富的声学和干净的转录本。然后,应用几种自然语言处理方法从这些转录本中提取特征,以产生健康语音的原型。利用这些原型的基本距离度量作为标准机器学习分类器的输入特征,可以实现与人类水平相当的准确性来区分患有失语症的人与健康对照组的记录。此外,可以以 90% 的准确性区分最常见的失语症类型。该流程可直接应用于其他疾病和语言,并显示出从语音诊断标志提取的强大前景。
Aug, 2023
研究评估了两个最先进的自动语音识别系统 Wav2Vec2.0 和 Whisper AI 的性能,以开发一个可以支持儿童学习外语的语音机器人,并探究使用 ASR 技术提供对孩子的发音和流利度的洞察力的效用
Jun, 2023
使用视频作为电子学习的工具时,自动生成的转录文本对于提升学习体验至关重要。本文通过 25 个教育视频量化了由 Whisper 生成的转录文本,并且针对利用自动语音识别技术进行教育视频转录的研究提出了一些开放性问题。
Jul, 2023
我们的研究旨在探索能否将已存在的多语种 ASR 模型,如 Whisper,适应于儿童语音以提高儿童 ASR 性能,并将 Whisper 适应于儿童语音的结果与基于自监督模型 wav2vec2 进行微调的结果进行比较,结果显示在儿童语音上对 Whisper 进行微调显著提高了 ASR 性能,而利用对儿童语音进行微调的 wav2vec2 模型甚至超过了 Whisper 的效果。
Jul, 2023
本研究通过 ASR 系统分析儿童的语音来开发新的系统,与之前的研究进行比较,结果表明新开发的 ASR 系统在正确拒绝方面表现出更好的结果;该结果表明,难以对孤立的单词进行分类。
Jun, 2023
这篇论文中,采用图像与未翻译口头说明的组合,研究计算机视觉系统是否可以用于获取语音的文本标签,并使用图片到词语多标签视觉分类器标记图像的软文本标签。然后,训练神经网络将语音映射到这些软目标。结果表明,语音识别系统能够预测话语中出现的单词,并作为口头词组分类器,同时还经常混淆语义相关的词,例如 “男人” 和 “人” ,使其效果更好作为语义关键词识别器。
Mar, 2017