低资源语言阿曼齐文符号图像的光学字符识别和转录
研究探索了 Kiswahili 语音文本的转录和 Kiswahili 语音语料库的开发,提供了 CMU Sphinx 语音识别工具箱创建的 Kiswahili 音素字典,以及使用扩展的音位集培训的 ASR 模型,使得模型优于以前类似研究的表现,并可在听障者中实现其母语的转录。
Oct, 2022
该研究使用编码器 - 解码器转换器针对 OCR 系统的研究和发展,以低资源语言(如孟加拉语和尼泊尔语)为例,通过对手写和打印的光学文本图像的集合进行评估,结果表明该技术与当前方法相符,并在孟加拉语和尼泊尔语的文本识别中取得了高精度,从而为东南亚地区的语言学研究打开了先机。
Apr, 2024
本研究在于使用阿拉伯语拉丁写法(Arabizi)对突尼斯阿拉伯语进行编码,在此基础上创建了一个包含语料库和 NLP 工具的资源,用于提供各级语言信息的词语分类、音译、标记、词形归总等,并讨论了使用计算和语言方法进行研究路径和实验的策略等问题,最终提供了可能广泛用于计算和语言研究的资源。
Jul, 2022
本文介绍了针对阿拉伯历史文献的光学字符识别技术的研究,提出了一种端到端文本识别方法 BEIT,并通过实验比较证明,该方法优于卷积神经网络的特征提取方法,达到了 4.46% 的识别准确率。
Aug, 2022
通过深度学习模型,我们提出了一个端到端系统来高效地检测、识别、校正和解析孟加拉语标牌上的地址信息,并设计了一种新颖的地址文本校正模型和孟加拉语地址文本解析器。
Nov, 2023
本研究通过对现有系统、度量和资源的批判性回顾,提供了一个可以用于基准测试阿拉伯文连字的免费清洗数据集。实验结果表明,神经 Shakkala 系统相对于传统的基于规则的方法和其他闭源工具具有更好的连字错误率表现。
Apr, 2019
该研究提出了一种用于改善摩洛哥客户本地语言中的银行意图分类的新型数据集 DarijaBanking,并介绍了一种名为 BERTouch 的基于 BERT 的语言模型,以实现对 Darija 的意图分类。
May, 2024
本研究旨在解决 Facebook 评论中的攻击性和辱骂性内容检测问题,针对阿尔及利亚方言阿拉伯语进行探讨,使用 BiLSTM,CNN,FastText,SVM 和 NB 等文本分类器进行多项实验,并建立了一个包含 8.7k 手动标注为正常,虐待和攻击性的文本的新语料库。结果表明,分类器的性能尚可,但需要进一步研究语言特征以提高识别精度。
Mar, 2022
该文章介绍了 AfroDigits 数据集,这是一个社区驱动的包含 38 种非洲语言的最小化 data-set,用于解决语音技术在非洲语言中的局限性,在使用 Wav2Vec2.0-Large 和 XLS-R 模型的实验中显示了洲际混合语音库对对象识别的影响。
Mar, 2023