针对阿拉伯语的多样性进行负责任的自然语言注释

ACLMar, 2022

针对阿拉伯语的多样性进行负责任的自然语言注释

Towards Responsible Natural Language Annotation for the Varieties of Arabic

A. Stevie Bergman, Mona T. Diab

TL;DR本文提出在构建 NLP 模型时，需要关注文化和（社会）语言细微差别，特别是在数据集注释和文化语言方面的经验应该被纳入该过程中。提供了一个适用于多方言语言的负责数据集创建的示例。

Abstract

When building nlp models, there is a tendency to aim for broader coverage, often overlooking cultural and (socio)linguistic nuance. In this position paper, we make the case for care and attention to such nuances, particularly in →

nlp models cultural nuance (socio)linguistic nuance dataset annotation multidialectal languages

发现论文，激发创造

Masader: 面向阿拉伯文本和语音数据资源的元数据采集

该论文描述了最近几年自然语言处理管道的进展，重点介绍了由 200 个数据集构成的阿拉伯语 NLP 数据集最大的公共目录 Masader，以及为其他语言开发的元数据注释策略。

Oct, 2021

丰富 NArabizi 树库：多方面支持资源匮乏的语言的方法

本研究针对 NArabizi 语言数据的人工标注数据不足的问题，通过引入两个新的注释层和再次标注的方式，增强了 NArabizi Treebank，从而为该语言的高级语言模型和自然语言处理工具的开发提供了基础。

Jun, 2023

有毒语言检测：阿拉伯数据集的系统调查

本文综合调查了关于阿拉伯语在线毒性语言的数据集，收集了 49 个可用的数据集及其相应的论文，并对其进行了全面分析，考虑了内容、注释过程和可重复使用性三个主要维度的 16 个标准。通过这一分析，我们发现了现有的差距，并对今后的研究工作提出了建议。

Dec, 2023

D3CODE: 跨文化数据中的冒犯性检测与评估中的差异分析

通过广泛的平行标注来考虑不同社会和文化群体的道德价值观，在跨文化数据集中揭示了标注者感知的区域差异，为构建包容性、具有文化敏感性的自然语言处理模型提供了关键见解。

Apr, 2024

NusaWrites：为代表性和极度资源匮乏的语言构建高质量语料库

对印尼本土语言进行案例研究的结果表明，原生说话者通过段落撰写所生成的数据集在词汇多样性和文化内容方面优质，有助于推广自然语言处理技术到较少研究的语言领域。

Sep, 2023

阿拉伯语语料库的多级分析和注释用于文本 - 手语机器翻译

本文介绍了对现代标准阿拉伯语（MSA）文本的词汇语义分析和注释的持续努力，提出了一个半自动注释工具，涉及描述的形态、句法和语义层面。

May, 2016

面向语言建模的大规模多样化阿拉伯语语料库

这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库，旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外，该语料库还被用于大型阿拉伯语言模型的训练，在对典型的 NLP 任务进行微调时，与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升，据我所知，这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。

Jan, 2022

ThatiAR：阿拉伯新闻句子主观性检测

本研究介绍了第一个用于阿拉伯语主观性检测的大型数据集，包括约 3.6K 个手动注释的句子，并基于 GPT-4o 提供解释。我们还提供了英语和阿拉伯语的说明以便进行基于 LLM 的微调，并进行了数据集、注释过程以及广泛基准测试结果的深入分析，包括预训练语言模型 (PLMs) 和 LLMs。我们的分析表明，注释者在注释过程的开始阶段受到其政治、文化和宗教背景的强烈影响。实验结果表明，具有上下文学习的 LLMs 表现更好。我们旨在向社区发布该数据集和资源。

Jun, 2024

多语言情感分析的集成语言模型

社交媒体的快速发展使得我们能够分析用户意见。尽管常用语言的情感分析已经取得了显著的进展，但由于资源限制，低资源语言像阿拉伯语等仍然很少有研究。本研究探讨了 SemEval-17 和阿拉伯语情感推文数据集上的推文文本的情感分析，并研究了四种预训练语言模型以及提出了两种集成语言模型。我们的发现包括单语言模型表现出更好的性能，集成模型优于基线，而多数投票集成模型胜过英语。

Mar, 2024

101 亿阿拉伯语词汇数据集

该研究致力于解决阿拉伯地区数据稀缺的问题，以鼓励开发真实地反映该地区语言和细微差异的阿拉伯语言模型。通过从 Common Crawl WET 文件中提取大量阿拉伯文本数据，经过严格的清洗和去重处理，形成了迄今为止最大的 1010 亿阿拉伯词汇数据集，这将对真实的阿拉伯语言模型的发展产生重要贡献。该研究不仅强调了创造语言和文化准确的阿拉伯语言模型的潜力，还为增强阿拉伯语言模型的真实性奠定了未来研究的先例。

Apr, 2024