芬兰方言识别:音频和文本的影响
研究使用声学分类模型和文本分类器来识别爱尔兰方言,以便将其纳入语音识别管道以增强精度。ECAPA-TDNN 是最佳表现的模型之一,可将其输出与文本模型的输出相结合以进一步提高准确性。作者发现该模型在鉴别阿尔斯特方言方面表现最佳,但在区分康纳赫特方言和蒙斯特方言方面具有挑战性。
Jul, 2023
该研究探讨了在低资源情况下,通过比较纯音频和混合多模态技术的音频识别解决方案,发现纯音频解决方案是没有自动语音识别系统的情况下的可行选项,并且混合多模态解决方案获得了最佳结果。
Jul, 2023
本文介绍了芬兰议会 ASR 语料库及相关的 Kaldi-based 数据准备管道,HMM,HMM-DNN 和 AED ASR 配方,以及通过测试集和其他数据集在 ASR 上设置了基准,最后比较了不同议会元数据的 ASR 准确性变化。
Mar, 2022
本文介绍了 Donate Speech 捐赠语音项目,其目的是收集 3600 小时的芬兰口语,建立一个代表性的大型语料库来研究自然口语,并加速语言技术和基于语音的服务的发展,同时提供基于这个语料库的多个使用案例和基准。
Mar, 2022
本文通过简单音频和 n-gram 特征,达到了近 90% 的准确识别率,无论问题变化多少,音频特征都不受影响,经验证明这种方法可适用于任何语言的口音识别系统的开发和应用。
Apr, 2018
本研究通过 wav2vec 2.0 模型中提取的嵌入来区分多达 100 种荷兰四种方言的发音差异,结果表明,基于声学模型的方法优于基于电话转录的方法,且 XLSR-53 模型在荷兰方言的微调后表现最佳,仅仅利用六秒的语音,即可得到与实际情况吻合的聚类。
May, 2022
本文分析了来自英语、韩语和泰米尔语三种具有不同韵律系统的语言的语音障碍者讲话数据集,检查反映语音质量、发音和韵律三个讲话维度的 39 个声学测量标准,提出在了解说话的可懂水平的平均声学测量值的基础上进行多语种分析,并进行自动可懂性分类以研究最佳功能集。分析表明发音特征是语言无关的测量标准,如音素正确百分比、辅音正确百分比和元音正确百分比,而声音质量和韵律特征通常呈现不同的语言特征。实验结果进一步表明,不同的语音维度在不同的语言中发挥更大的作用:英语的韵律,韩语的发音,泰米尔语的韵律和发音。这篇论文为语音病理学做出了贡献,因为它区分了英语、韩语和泰米尔语的语音障碍者可懂性分类中语言无关和语言相关的测量标准。
Sep, 2022
在 VarDial 2023 共享任务中,我们提出了一种基于两阶段系统的方法,能够对两种或三种语言的方言进行分类, Track-1 获得了 58.54% 的得分和 Track-2 获得了 85.61% 的得分,优于该领域其他参与者的系统和以往研究成果。
Mar, 2023