阿拉伯拉丁字母拼音检测和转换为阿拉伯文
该研究对阿拉伯语的三个主要变体(MSA、AD 和 CA),特别是由拉丁字母和数字组成的 Arabizi 形式的文字,在阿拉伯文本处理中的挑战以及可用资源和工具方面进行了调查,并对最近研究论文进行了分类和总结。
Mar, 2019
本研究介绍了 TUNIZI,一种情感分析突尼斯语阿拉伯字母表数据集,旨在开发和提高分析研究,通过社交媒体收集并由突尼斯本土讲话者手动标注准备。
Apr, 2020
本研究在于使用阿拉伯语拉丁写法(Arabizi)对突尼斯阿拉伯语进行编码,在此基础上创建了一个包含语料库和 NLP 工具的资源,用于提供各级语言信息的词语分类、音译、标记、词形归总等,并讨论了使用计算和语言方法进行研究路径和实验的策略等问题,最终提供了可能广泛用于计算和语言研究的资源。
Jul, 2022
本研究针对 NArabizi 语言数据的人工标注数据不足的问题,通过引入两个新的注释层和再次标注的方式,增强了 NArabizi Treebank,从而为该语言的高级语言模型和自然语言处理工具的开发提供了基础。
Jun, 2023
本研究提出了一种基于深度学习的方法,名为 DaToBS,用于自动识别并转录自摄取的图片中的塔芬哈字符。该方法在 Berber 语言中实现了高达 92%的准确性,并有望帮助这种低资源语言更好地参与到教育和 AI 中。
Mar, 2023
本文提出了一种自动构建阿尔及利亚方言情感语料库的新方法,该语料库基于自动构建的阿尔及利亚情感词典,涉及使用阿拉伯文和阿拉伯字母拼音写成的社交媒体数据,并且取得了较好的实验结果。
Aug, 2018
研究通过在洲际海峡北美洲国家的不同阿拉伯方言中对同音异义词攻击对情感分析(SA)任务的影响,发现当数据以 “Arabizi” 书写时,同音异义词攻击导致 Transformer 分类的 F1 分数从 0.95 降低到 0.33,旨在凸显 LLM 的弱点并优先考虑道德和负责任的机器学习。
Feb, 2024
本文介绍了一个开源软件库,为操作使用波斯 - 阿拉伯字母表的语言的书写系统提供了一组有限状态转移器(FST)组件和相应的实用工具,包括各种级别的脚本标准化、简便的拼音和音译功能。我们还提供了一对多的 Unicode 编码点到使用这些点的语言的映射,以提供处理接近于十亿人使用的字母表的脚本家族的统一框架。
Jan, 2023
本文讨论了波斯 - 阿拉伯文字在自然语言处理方面的挑战,强调了正规化对于脚本变异的重要性,并对 8 种语言的机器翻译和统计语言建模任务的性能进行了评估。结果表明,大多数条件下应用正规化可以显着提高性能,并指出了在语言资源匮乏的情况下,更好地理解和呈现区域正字传统内波斯 - 阿拉伯脚本变化对于现代计算机自然语言处理技术的进一步发展至关重要
Oct, 2022
本文探讨了在社交媒体上使用突尼斯方言进行情感分析的挑战和方法,重点介绍了使用无监督学习下的自然语言处理和深度神经网络技术,在不使用手工特征的情况下,成功实现了与其他语言情感分析的相当水平。
Oct, 2020