口语阅读流利度评估的深度学习
利用大规模语音模型评估加纳学生的口语阅读流利度,在全球南方教育背景下首次研究了最新版本的大规模语音模型 (Whisper V2 wav2vec2.0) 在口语阅读流利度评估中的应用,并发现这些模型能以较高的准确度自动评估学生的口语阅读流利度。
Oct, 2023
本研究通过研究两个小数据集,其中一个是公开的,探讨使用 wav2vec 2.0 对英语口语能力的整体和各方面进行评估的可行性,相对于基于 ASR 和手动转录训练的 BERT 基准系统,发现此方法有很大的提升。
Oct, 2022
本文提出了一种基于自监督学习的方法,利用大量未标注语音和文本提示进行预训练,然后再进行有人工评分的微调,以更好地评估语音流畅性 / 不流畅性。实验结果表明,该方法在 Pearson 相关系数方面优于基线系统,并且通过消融实验来更好地理解音素和韵律因素在预训练阶段的贡献。
May, 2023
该研究在不使用参考文献的情况下,利用各种词嵌入和递归神经网络结构的语言模型,通过比较分析 10 种印度语言中的流畅度评分与人工判断的相关性,提供了一种测量文本流畅性的新方法。
Dec, 2023
本文介绍一种基于自监督语音表示的自动口语评估系统,并将其与传统的基于语音识别和基于文本的评估系统进行比较。研究结果表明,该系统可以在适当情况下与其他系统媲美甚至取得更好的表现。
Nov, 2022
本文提出了一种以帧特征为基础,采用时间依赖建模的自动语音质量评估系统,相较之下与其它表现最佳的模型相比,该系统参数更少(约 40-60 倍)、计算量更少(约 100 倍)、内存消耗更少(约 10-15 倍)且延迟更低(约 30 倍),并且发现帧嵌入优于语句级嵌入,而多任务训练时进行声学条件建模不会降低语音质量预测能力,同时提供更好的解释。
Nov, 2022
通过使用最新的波形神经网络技术(wav2vec 2.0)并结合多任务学习,对一个英文语料库中的口吃病识别进行了研究,并在语音识别技术和口吃治疗领域有重要应用。
Apr, 2022
本研究通过 ASR 系统分析儿童的语音来开发新的系统,与之前的研究进行比较,结果表明新开发的 ASR 系统在正确拒绝方面表现出更好的结果;该结果表明,难以对孤立的单词进行分类。
Jun, 2023