英语、韩语和泰米尔语的跨语言发音障碍严重程度分类
本文分析了来自英语、韩语和泰米尔语三种具有不同韵律系统的语言的语音障碍者讲话数据集,检查反映语音质量、发音和韵律三个讲话维度的 39 个声学测量标准,提出在了解说话的可懂水平的平均声学测量值的基础上进行多语种分析,并进行自动可懂性分类以研究最佳功能集。分析表明发音特征是语言无关的测量标准,如音素正确百分比、辅音正确百分比和元音正确百分比,而声音质量和韵律特征通常呈现不同的语言特征。实验结果进一步表明,不同的语音维度在不同的语言中发挥更大的作用:英语的韵律,韩语的发音,泰米尔语的韵律和发音。这篇论文为语音病理学做出了贡献,因为它区分了英语、韩语和泰米尔语的语音障碍者可懂性分类中语言无关和语言相关的测量标准。
Sep, 2022
使用自监督模型结合多任务学习的新颖自动程度评估方法在不充分的数据下对 Dysarthric 发音进行评估,该方法使用 Wav2vec 2.0 XLS-R 以及手工制作的声学特征和机器学习分类器, 在 Korean dysarthric speech QoLT 数据库上相较传统基线方法提高了 1.25% 的 F1 值,并且相较于没有 ASR 头的模型提高了 10.61% 的相对百分比增长。我们还通过分析潜在表示和正则化效应来展示多任务学习如何影响重度分类表现。
Oct, 2022
本文提出了一种跨领域和跨语言的 A2A 反演方法,利用 24 小时 TaL 语料库的并行音频和超声舌成像数据,将其在 A2A 模型预训练时进行交叉领域和跨语言适应,以产生基于超声口腔影像的发音特征。实验表明,将生成的发音特征纳入自动语音识别系统中,相对于仅使用声学特征的基线 TDNN 和 Conformer ASR 系统,应用数据增强、扬声器适应和跨系统多通道解码后,单词或字符错误率降低了最多 4.75%、2.59%和 2.07%的绝对误差(相对误差最高可达 14.69%、10.64%和 22.72%)。
Jun, 2022
本文提出了一套新的方法,即使用多任务训练,包含严重程度预测误差、说话者 - 严重程度感知辅助特征适应以及基于与严重度有关和说话者身份有关的 LHUC 转换来进行发音障碍语音识别,结果实验表明将额外的语音障碍严重度纳入最先进的混合 DNN、E2E Conformer 和预训练的 Wav2vec 2.0 ASR 系统,可以产生显著的 WER 下降,最低 WER 达到 17.82%。
May, 2023
通过使用变压器模型与多任务学习,研究论文提出了一种自动评估口吃严重程度的新框架,并比较不同方法之间的性能,以实现客观、可重复、易接触、标准化和成本效益高的自动评估方案。
Feb, 2024
使用预训练 Wav2Vec、Hubert 和 XLSR 模型的声学特征训练自动语音识别系统,对患有言语障碍的英语、西班牙语和意大利语使用者进行识别,结果表明相较于 Fbank 特征,使用 XLSR 特征可将识别错误率分别降低 6.8%、22.0% 和 7.0%。
Apr, 2022
该研究利用 openSmile 工具包和 XLSR-53 提取声学特征,将语音转录成文本后提取语言特征进行 AD 患者检测,结果显示该方法能够通过自发性说话实现自动多语言阿尔茨海默病检测,分类准确率为 69.6%,均方根误差为 4.788。
Mar, 2023
提出了一种基于图神经网络和变压器的跨语言灾难相关文本分类系统,该系统可以在有限的监督下工作,并在多种语言和单语言情境下进行分类。在英语、非英语和单语数据集上测试,该系统的加权 F1 值优于现有的最先进模型和多语言 BERT 基线。
Mar, 2022
该研究评估了大型语言模型对于改善交通事故管理中的机器学习过程的影响,研究了使用事故报告对事故严重程度进行分类时,由现代语言模型生成的特征在改进或匹配预测准确性方面的程度,并进行了多个比较以验证语言模型和机器学习算法的组合。研究结果显示,将语言模型的特征与直接从事故报告中获取的特征进行结合,可以在分配事故严重级别时提高或至少与机器学习技术的性能相匹配,尤其是在采用随机森林和极限梯度提升方法时。该研究对于展示如何将大型语言模型整合到事故管理的机器学习工作流程中,从而简化从非结构化文本中提取特征并改进或匹配事故严重程度预测的精度具有重要贡献。通过有效利用这些语言处理模型来改进事故严重级别分类的建模过程,该研究展示了工程应用实例。本研究为在传统数据基础上利用语言处理能力改进机器学习流程、进行事故严重程度分类提供了重要洞见。
Mar, 2024