马格里布情感分析器的同形攻击

Feb, 2024

Homograph Attacks on Maghreb Sentiment Analyzers

Fatima Zahra Qachfar, Rakesh M. Verma

TL;DR研究通过在洲际海峡北美洲国家的不同阿拉伯方言中对同音异义词攻击对情感分析（SA）任务的影响，发现当数据以 “Arabizi” 书写时，同音异义词攻击导致 Transformer 分类的 F1 分数从 0.95 降低到 0.33，旨在凸显 LLM 的弱点并优先考虑道德和负责任的机器学习。

Abstract

We examine the impact of homograph attacks on the sentiment analysis (SA) task of different arabic dialects from the →

homograph attacks sentiment analysis arabic dialects maghreb north-african countries llms weaknesses

发现论文，激发创造

SentiALG：阿尔及利亚情感分析自动语料标注

本文提出了一种自动构建阿尔及利亚方言情感语料库的新方法，该语料库基于自动构建的阿尔及利亚情感词典，涉及使用阿拉伯文和阿拉伯字母拼音写成的社交媒体数据，并且取得了较好的实验结果。

Aug, 2018

阿拉伯语的多层情感分析

研究 Arabic 情感分析，提出了一种基于机器学习的方法和特征向量，使用人工神经网络分类器，在单词级别和文档级别进行情感分析，在单词级别获得的平均 F1-score 为 0.92，在文档级别的正类为 0.94，负类为 0.93。

May, 2022

基于分类和生成方法的阿拉伯语句子简化

本文尝试构建一种现代标准阿拉伯语 (MSA) 句子级简化系统，使用两种方法进行简化：基于分类的方法和生成式方法 (mT5)，并使用 BERTScore 评估了它们的有效性。

Apr, 2022

阿拉伯语 Transformer 模型的事后分析

对在不同阿拉伯语方言上训练的 transformer 模型进行层与神经元分析，研究有趣的发现如下：①单词形态在较低和中间层次上学习，②句法依赖在较高层次上被捕获，③虽然 MSA 模型的词汇表与方言词汇表有很大重叠，但仍然无法捕捉阿拉伯语方言的微妙之处，④嵌入层的神经元是一词多义的，而中间层的神经元仅适用于特定属性。

Oct, 2022

USTHB 参加 NADI 2023 共享任务：探索阿拉伯方言识别的预处理和特征工程策略

该研究针对阿拉伯方言识别的国家级方言识别这一子任务，对表面预处理、形态预处理、FastText 向量模型和 TF-IDF 特征的加权拼接等多个关键因素进行深入分析，使用线性支持向量分类（LSVC）模型进行分类，并取得了显著成果，F1 得分为 62.51%，接近于该子任务所提交其他系统的平均 F1 得分 72.91%。

Dec, 2023

基于 Transformer 和集成方法的阿拉伯语仇恨言论检测解决方案

本研究描述了我们参与 CERIST NLP Challenge 2022 的 hate speech detection 共享任务的情况，通过六种 transformer 模型和两种集成方法的组合来评估我们的实验效果。我们使用基于多数投票的组合方法在五倍交叉验证方案中取得了最佳结果。该方法在测试集上的评估表明，F1-score 为 0.60，准确度为 0.86。

Mar, 2023

基于阿拉伯语同义词 BERT 的文本分类对抗样本

通过引入第一个阿拉伯语的词级研究，我们使用基于掩蔽语言建模任务的同义词替换攻击，评估了最先进的文本分类模型对于阿拉伯语中的对抗攻击的鲁棒性，并研究了这些对抗样本的语法和语义相似性、传递性攻击的有效性以及关于 BERT 模型的防御机制的效果。我们发现，相较于其他我们训练的深度神经网络模型（如 WordCNN 和 WordLSTM），经过微调的 BERT 模型对我们的同义词替换攻击更容易受到影响。最后，我们发现经过对抗训练作为初始防御机制后，经过微调的 BERT 模型成功地恢复了至少 2% 的准确率。

Feb, 2024

性别歧视检测：阿尔及利亚方言中第一个带有阿拉伯语 / 法语和英语代码切换的语料库

本文提出了一种针对阿拉伯社交媒体（例如 Youtube）中针对女性的仇恨言论的检测方法，并使用不同的机器学习算法对新的阿拉伯语仇恨言论语料库进行了验证和比较，结果表明卷积神经网络模型具有最佳性能。

Apr, 2021

使用预训练语言模型进行阿拉伯语及其方言的形态句法标注

该研究利用预训练转换器语言模型对不同形式的阿拉伯语进行形态句法标记，优于现有系统，在不同区域的阿拉伯语可获得显著改进，特别是在资源匮乏的情况下，利用其他高资源方言的数据进行微调，以及使用高质量的形态分析器作为外部语言资源是有益的。

Oct, 2021

通过选择性字音符复原进行多义字消歧

本文提出了一种自动标记一部分词汇以进行音标恢复的方法，从而实现有选择性的同形词消除，并将其在神经机器翻译、词性标注和语义文本相似度等下游应用中进行了评估。

Dec, 2019