你来自哪里？让我猜猜！索拉尼库尔德语言言尔识别

Mar, 2024

你来自哪里？让我猜猜！索拉尼库尔德语言言尔识别

Where Are You From? Let Me Guess! Subdialect Recognition of Speeches in Sorani Kurdish

Sana Isam, Hossein Hassani

TL;DR通过进行现场访问与记录，我们获得了6个次方言的29小时、16分钟和40秒的音频记录，应用了三种深度学习模型（ANN，CNN和RNN-LSTM），并比较了它们的性能，发现RNN-LSTM模型表现最佳，准确率达到96%。

Abstract

Classifying sorani kurdish subdialects poses a challenge due to the need for publicly available datasets or reliable resources like social media or websites for data collection. We conducted field visits to vario

发现论文，激发创造

字符串核函数在母语识别中是否经得起时间考验？

一篇介绍用于2017年原生语种识别共享任务的机器学习方法的论文，该方法组合了几个内核（包括从文章或演讲转录中提取的字符p-grams和音频记录的低维表示），并使用核判别分析（KDA）来分类。使用该方法，研究团队在不同的竞赛分类中获得了优异的得分（达到了最好的口语和混合跟踪的得分），证明了该方法的有效性。

Jul, 2017

UnibucKernel Reloaded：两年连续获得阿拉伯方言辨别竞赛第一名

使用浅层而简单的多核学习方法，有效地提高了阿拉伯方言识别的精度。

May, 2018

利用无线电存档进行低资源语音识别：面向文盲用户的智能虚拟助手

通过对噪音广播档案的无监督的语音表示学习方法进行调查，我们的贡献包括发布两个数据集到研究社区以及共享受过训练的语音编码器，最终分享了Maninka、Pular 和Susu等语言的首个语音识别模型，为服务于数字鸿沟中穷困落后的人群而提供了一种道路。

Apr, 2021

探究面向跨语言低资源ASR评估的数据分割策略

本研究探讨了针对训练资源匮乏的五种语言十种不同数据划分方法的模型性能，揭示不同说话者数据选取对模型性能的影响，表明在数据稀缺情况下采用基于随机划分的数据分割可以产生更可靠和可推广的结果。

Aug, 2022

苏丹方言的端到端自动语音识别模型

本研究检验了针对苏丹语方言设计自动语音识别模型的可行性，并使用卷积神经网络设计了一种端到端语音识别模型，该模型在苏丹方言数据集上取得了73.67%的平均标签错误率

Dec, 2022

苏莱曼尼亚库尔德语（苏拉尼）命名实体语料库——对库尔德-BLARK命名实体的一种修改

该研究提出了一个涵盖库尔德语（Sorani）中几个实体类别的数据集，涉及命名实体识别等自然语言处理领域，并公开该数据集供非商业用途，以填补目前资源匮乏的局面。

Jan, 2023

HYKIST项目中越南语自动语音识别的无监督预训练

通过开发音频识别和机器翻译系统以改善医患沟通，该研究旨在为解决医疗领域的语言难题提供支持，探讨训练计划和数据整合策略，以优化性能。

Sep, 2023

中央库尔德语种语言和语音技术

我们开发语言和语音技术的资源，为中央库尔德语的各种变体创建语料库，并报告了机器翻译、自动语音识别和语言识别的性能。

Mar, 2024

论鲁棒知识蒸馏的稳健性问题

在阿拉伯语自动语音识别（ASR）方面存在独特的挑战，为了克服这些挑战，本研究采用知识蒸馏技术将大型教师模型提取为更高效的小型学生模型，引入了一份人工标注的新数据集以评估五个少见的阿拉伯方言。在现有基准测试和新的方言数据上，我们的最佳蒸馏模型整体表现优于现有模型（SeamlessM4T-large-v2，WER=47.0%）和教师模型（Whisper-large-v2，WER=55.1%），并且在新的方言数据上的平均性能（WER=56.9%）超过了所有其他模型。通过错误分析，揭示了这些模型在方言数据上表现不佳的主要错误类型。

Jun, 2024

GigaSpeech 2：用于低资源语种的演进、大规模、多领域的ASR语料库的自动爬取、转写和优化

这篇论文介绍了GigaSpeech 2，一个为低资源语言设计的大规模、多领域、多语种的语音识别语料库，它不依赖于配对的语音和文本数据。该论文还介绍了一个自动化的数据爬取、转录和标签优化流程，以及通过修改的Noisy Student Training来进一步提高模型性能。实验结果证明了该语料库高质量和广泛适用性，并且相比于Whisper large-v3模型，基于GigaSpeech 2训练的ASR模型在泰语、印尼语和越南语的测试集上可以将词错误率降低25%至40%。同时，与商业服务相比，基于GigaSpeech 2训练的ASR模型也能取得更好的性能。我们相信我们引入的语料库和流程将为低资源语音识别开辟新的研究途径并极大地促进该领域的研究。

Jun, 2024