阿拉伯语语料库的多级分析和注释用于文本 - 手语机器翻译
利用最近提出的形态学框架,本文试图定义现代标准阿拉伯语(MSA)标称词面临的许多形态和词汇建模难题的范围,并构建一个全面且可扩展的 MSA 标称词模型。我们的模型设计解决了标称词复杂的成分词法以及词类不规则性问题。我们的实现相比常用的 MSA 形态学分析器和生成器显示了更高的准确性和一致性。我们公开了我们的模型。
Feb, 2024
通过对已发表的 133 篇英文 ASA 论文的深入研究和 2297 篇 ASA 出版物的广泛研究,本文揭示了 ASA 的常见主题、应用领域、方法、技术和算法,并强调了 ASA 所面临的挑战和未来发展方向。
Mar, 2024
本文主要研究了基于深度学习与多模态语料库的阿拉伯情感分析的数据集,通过使用最先进的 transformers 和特征提取工具来建立我们的阿拉伯多模态数据集,并使用 state-of-the-art 的 transformer-based model 验证我们的数据集,研究表明阿拉伯多模态情感分析非常有前途。
Jun, 2023
本文尝试构建一种现代标准阿拉伯语 (MSA) 句子级简化系统,使用两种方法进行简化:基于分类的方法和生成式方法 (mT5),并使用 BERTScore 评估了它们的有效性。
Apr, 2022
SALMA 是第一个阿拉伯语的语义注释语料库,包含约 34K 个令牌,所有令牌都进行了语义注释,并使用两个不同的语义库(现代语义库和 Ghani 语义库)进行注释。该语料库的创新之处在于如何关联令牌和语义,SALMA 将令牌与多个语义关联并为每个语义提供分数。我们开发了一个智能的基于 web 的注释工具来支持给定词语的多个语义的评分。除了语义注释,我们还使用六种类型的命名实体进行了语料库的注释。通过使用多种度量标准(Kappa,线性加权 Kappa,二次加权 Kappa,均方误差和平均平方根误差),我们评估了注释的质量,结果显示极高的注释者一致性。为了建立使用我们 SALMA 语料库的词义消歧基线,我们使用目标语义验证构建了一个端到端的词义消歧系统。我们使用该系统评估了文献中提供的三个目标语义验证模型。我们的最佳模型在使用现代语义库时达到了 84.2%的准确率,在使用 Ghani 语义库时达到了 78.7%的准确率。完整的语料库和注释工具是开源和公开可用的。
Oct, 2023
本文提出了一种自动构建阿尔及利亚方言情感语料库的新方法,该语料库基于自动构建的阿尔及利亚情感词典,涉及使用阿拉伯文和阿拉伯字母拼音写成的社交媒体数据,并且取得了较好的实验结果。
Aug, 2018
研究 Arabic 情感分析,提出了一种基于机器学习的方法和特征向量,使用人工神经网络分类器,在单词级别和文档级别进行情感分析,在单词级别获得的平均 F1-score 为 0.92,在文档级别的正类为 0.94,负类为 0.93。
May, 2022
本文介绍一种收集和处理阿拉伯语历史语料库的方法,所得到的大规模语料库包括约 10 亿个单词,使用形态分析器进行处理,并检测出了平行段落并自动标注了年代。该语料库可用于数字人文学研究的实际应用。
Dec, 2016
本文提出在构建 NLP 模型时,需要关注文化和(社会)语言细微差别,特别是在数据集注释和文化语言方面的经验应该被纳入该过程中。提供了一个适用于多方言语言的负责数据集创建的示例。
Mar, 2022
我们提出了 SAMER 语料库,这是第一个针对学龄儿童的阿拉伯语句子简化的手工注释的平行语料库。该语料库包括了 15 部公开可获取的阿拉伯小说,总共约 159K 个单词。我们在文档和单词级别对语料库进行了可读性标注,并提供了针对不同可读性水平的两个简化版本的平行文本。我们描述了语料库的选择过程,并概述了我们创建注释和确保其质量所遵循的指导方针。我们的语料库可以公开获取,以支持和鼓励阿拉伯语句子简化、阿拉伯语自动可读性评估以及阿拉伯语教育语言技术的研究发展。
Apr, 2024