Noor-Ghateh：用于评估哈迪斯领域阿拉伯语词分割器的基准数据集

Jun, 2023

Noor-Ghateh：用于评估哈迪斯领域阿拉伯语词分割器的基准数据集

Noor-Ghateh: A Benchmark Dataset for Evaluating Arabic Word Segmenters in Hadith Domain

Huda AlShuhayeb, Behrouz Minaei-Bidgoli, Mohammad E. Shenassa, Sayyed-Ali Hossayni

TL;DR我们提供了一个用于评估分离阿拉伯词汇方法的基准数据集，其中包括来自《伊斯兰教法》书籍的约 223,690 个单词，并由专家进行了标注。通过使用 Farasa、Camel、Madamira 和 ALP 等不同方法对数据集进行评估，我们报告了四种评估方法的注释质量。

Abstract

There are many complex and rich morphological subtleties in the Arabic language, which are very useful when analyzing traditional Arabic texts, especially in the historical and religious contexts, and help in understanding the meaning of the texts. →

arabic language morphological subtleties vocabulary separation benchmark dataset annotation quality

发现论文，激发创造

阿拉伯语言相关分词的挑战：机器翻译和词性标注的应用

本研究探讨用数据驱动的子字单元、字符和卷积神经网络（CNN）学习的单词嵌入来替代传统的形态学分割，实现阿拉伯语自然语言处理（NLP）中的词分割。实验表明，这些方法在机器翻译和词性标注任务中，可以达到接近或超过最先进性能。同时，研究揭示神经机器翻译系统对源和目标令牌的比值敏感，接近 1 或更大的比值有最佳性能。

Sep, 2017

阿拉伯手写文本行数据集

将阿拉伯手稿分割成文本行和单词是使识别系统更高效准确的重要步骤。我们提出了一个新的数据集，专门设计用于历史阿拉伯脚本，并在单词层面进行位置标注。

Dec, 2023

101 亿阿拉伯语词汇数据集

该研究致力于解决阿拉伯地区数据稀缺的问题，以鼓励开发真实地反映该地区语言和细微差异的阿拉伯语言模型。通过从 Common Crawl WET 文件中提取大量阿拉伯文本数据，经过严格的清洗和去重处理，形成了迄今为止最大的 1010 亿阿拉伯词汇数据集，这将对真实的阿拉伯语言模型的发展产生重要贡献。该研究不仅强调了创造语言和文化准确的阿拉伯语言模型的潜力，还为增强阿拉伯语言模型的真实性奠定了未来研究的先例。

Apr, 2024

Masader: 面向阿拉伯文本和语音数据资源的元数据采集

该论文描述了最近几年自然语言处理管道的进展，重点介绍了由 200 个数据集构成的阿拉伯语 NLP 数据集最大的公共目录 Masader，以及为其他语言开发的元数据注释策略。

Oct, 2021

探索分割方法用于神经机器翻译双语代码混合的埃及阿拉伯语 - 英文文本

在研究中，我们探究了不同分词方法在从阿拉伯语和英语混合语境中进行机器翻译时的效果。实证结果表明，有意识考虑词形的分词器在分词任务中效果最佳，但在机器翻译中表现不佳。在数据非常稀缺的情况下，采用词频和基于词形的组合进行分词是最有效的。

Oct, 2022

对增强的阿拉伯语语言模型的分词策略和词汇量进行探索

本研究通过考察不同的分词策略和词汇量对阿拉伯语言模型在自然语言处理任务中的表现影响，全面探究了其对新闻分类、仇恨言论检测、情感分析和自然语言推理等多个任务的有效性。结果显示，Farasa 的字节对编码 (BPE) 在多个任务中表现优于其他策略，突显了形态分析在捕捉阿拉伯语言细微差异方面的重要性。然而，在情感分析中存在方言特定的分割问题，影响模型效率。计算效率分析验证了 Farasa 的 BPE 的稳定性，表明其实际可行性。研究发现，词汇量对模型性能的影响有限，在不改变模型大小的前提下。这挑战了关于词汇量、模型大小和下游任务关系的既有信念，强调了对模型大小及其对应词汇量进行研究以在不同领域泛化和减少偏差的重要性，尤其是在基于方言的数据集中。本文建议改进分词策略以解决方言挑战，增强模型在不同语境中的鲁棒性，并扩大数据集以涵盖丰富的基于方言的阿拉伯语言。这项研究不仅推进了对阿拉伯语言模型的理解，而且为针对阿拉伯语言的复杂性定制的自然语言处理技术的负责和道德性发展奠定了基础。

Mar, 2024

一种无分割的端到端阿拉伯手写识别模型在 KHATT 上的应用

提出了一种从头开始训练的、端到端的、无分割的深度学习模型，利用 DCNN 进行特征提取，同时利用双向 LSTM 进行序列识别和 CTC 损失函数在 KHATT 数据库上进行训练，使得字符级别上测试数据集的识别率达到 84%，单词级别上达到 71%，建立了一种仅在行级别上操作而无需分割的基于图像的序列识别框架。同时介绍了 KFUPM Handwritten Arabic TexT (KHATT) 数据库的分析和预处理。最后，实现了包括滤波、变换和行分割等高级图像处理技术。该工作的重要性在于其广泛的应用，包括银行业的数字化、文档化、存档和文本翻译。此外，AHR 作为一种关键工具，可以使图像可搜索，增强信息检索能力，并实现轻松编辑。这一功能显著减少了阿拉伯语数据组织和处理等任务所需的时间和努力。

Jun, 2024

使用深度神经网络进行阿拉伯文标点符号标注

本研究通过对现有系统、度量和资源的批判性回顾，提供了一个可以用于基准测试阿拉伯文连字的免费清洗数据集。实验结果表明，神经 Shakkala 系统相对于传统的基于规则的方法和其他闭源工具具有更好的连字错误率表现。

Apr, 2019

增强阿拉伯目标意义验证的上下文 - 词汇增强

本文介绍了通过 (Arabic-English-Arabic) 机器回译，对 ArabGlossBERT 数据集进行了扩充。结果数据集大小增加到 352K 个对（149K 个正对和 203K 个负对）。我们使用不同的数据配置来微调目标意义验证（TSV）任务，并且测量扩充的影响。虽然我们的方法表现出了与基准线相当的性能，但在某些实验中，也观察到了一些部分词性的改进。

Feb, 2023

利用领域适应和数据增强提高英语和阿拉伯语中古兰经 IR 的效果

通过最新的神经信息检索方法，我们研究了如何更高效地处理阿拉伯语和英语的古兰经信息检索问题。通过在大量通用领域数据上进行训练，然后在特定领域数据上继续训练，并采用数据增强技术，我们取得了在 MRR@10 和 NDCG@5 指标上明显改善的成果，为英语和阿拉伯语的古兰经信息检索设立了新的技术标杆。

Dec, 2023