基于集成的框架用于检测阿拉伯语音素的发音错误
本文提出了一种使用 MFCC 和 LSTM 网络结合时序序列的自动 Tajweed 规则误读检测方法,用于帮助更多的穆斯林正确地诵读古兰经。在公共数据集 QDAT 上测试,LSTM 模型的准确率分别为 96%、95%和 96%,表现优于传统机器学习算法。
May, 2023
本研究描述了我们参与 CERIST NLP Challenge 2022 的 hate speech detection 共享任务的情况,通过六种 transformer 模型和两种集成方法的组合来评估我们的实验效果。我们使用基于多数投票的组合方法在五倍交叉验证方案中取得了最佳结果。该方法在测试集上的评估表明,F1-score 为 0.60,准确度为 0.86。
Mar, 2023
本文研究使用语音识别系统获得的音位、词汇特征以及基于 i - 向量框架的声学特征等不同方法来进行阿拉伯语方言识别的研究,使用多类支持向量机(SVM)综合这些特征,并在阿拉伯语 / 英语语言识别任务中获得 100%的准确率。在本研究中,我们使用这些特征作为二元分类器来对现代标准阿拉伯语(MSA)和方言阿拉伯语进行区分,获得了 100%的准确率,然后进一步报道了使用该方法来区分最广泛使用的阿拉伯语方言中的五种:埃及语,海湾语,黎凡特语,北非语和 MSA,准确率为 52%。本文讨论了方言识别的错误以及在方言阿拉伯语和 MSA 之间进行语言代码切换的上下文中的错误模式。最后我们释放了研究中使用的数据作为方言识别的标准语料库。
Sep, 2015
通过使用单一分类器和集成分类器方法,研究了使用 Mel 频率倒谱系数 (MFCCs) 在检测异常心脏音图中的功效。结果表明,与单一分类器方法相比,集成分类器方法获得了更高的准确性,从而将 MFCCs 确定为比其他特征(如时间、时间频率和统计特征)更有效的特征。
Jun, 2024
本研究旨在探讨何种辅助 Quintessential Mel 频率倒谱系数(MFCCs)可以提高非英语母语人士在有限语音识别任务中的表现,作者引入了频率重心用于改善在不同语音噪声条件下的英语单词识别能力,并通过两阶段卷积神经网络,对带有阿拉伯、法语和西班牙口音的英语单词进行建模。
Jun, 2022
本研究使用零样本学习的方法解决语言无训练数据情况下语音转写的挑战,将语音音素分解成相应的发音属性,结合定制的声学模型,实现对目标语言中未知音素的识别,评估结果表明,该方法比传统多语言模型的平均音素误差率提高了 7.7%。
Feb, 2020
本研究提出两种模型策略以加强 E2E MD 模型的区分能力 —— 输入增强和标签增强,经实验证明较传统的 DNN-HMM 声学模型效果更佳,可以用于 L2 学习者语音纠错。
Oct, 2021
该论文提出了一种基于 Transformer 编码器的音频分类模型,使用 MFCCs 作为输入特征,经过 ESC-50, Speech Commands v0.02, 和 UrbanSound8k 数据集的测试,获得了最高达 95.2% 的精度和轻量级的模型参数,是一种高效的音频分类方法。
Apr, 2023
提出了基于语音属性特征检测的低层级发音错误检测方法,通过使用单一模型联合建模非互斥的语音属性特征,该方法在英语学习者的二语语音语料库上应用,并与传统的基于音素级别的方法进行比较,从而获得了明显较低的假接受率、假拒绝率和诊断错误率。
Nov, 2023
本论文提出了一种新的端到端自动语音识别方法,使用扩展后的原始 L2 语音集和其对应的反语音集,以更好地识别分类和非分类发音错误,并通过转移学习范式来获得 E2E-based MDD 系统的初始模型估计,在 L2-ARCTIC 数据集上进行了广泛的实验,结果表明我们的最佳系统在 F1 分数方面胜过现有的 E2E 基线系统和基于发音评分 (GOP) 的方法,分别提高了 11.05% 和 27.71%。
May, 2020