阿拉伯推特行为：用加权集成预训练变换器模型对推特上的阿拉伯语言行为进行分类

Jan, 2024

阿拉伯推特行为：用加权集成预训练变换器模型对推特上的阿拉伯语言行为进行分类

Arabic Tweet Act: A Weighted Ensemble Pre-Trained Transformer Model for Classifying Arabic Speech Acts on Twitter

Khadejaa Alshehri, Areej Alhothali, Nahed Alowidi

TL;DR提出了一种基于变压器深度学习神经网络的推特方言阿拉伯语言言行为分类方法，并采用 BERT 加权集成学习方法，在阿拉伯语言言行为分类中得到了最佳性能。

Abstract

speech acts are a speakers actions when performing an utterance within a conversation, such as asking, recommending, greeting, or thanking someone, expressing a thought, or making a suggestion. Understanding speech acts

speech acts twitter arabic classification bert

发现论文，激发创造

基于 Transformer 和集成方法的阿拉伯语仇恨言论检测解决方案

本研究描述了我们参与 CERIST NLP Challenge 2022 的 hate speech detection 共享任务的情况，通过六种 transformer 模型和两种集成方法的组合来评估我们的实验效果。我们使用基于多数投票的组合方法在五倍交叉验证方案中取得了最佳结果。该方法在测试集上的评估表明，F1-score 为 0.60，准确度为 0.86。

Mar, 2023

推文行为：Twitter 上的言语行为分类器

本研究在推特平台上探索了言语行为的多分类识别，通过建立包含六种言语行为的分类体系并提出一套语义和句法特征，训练并测试出使用逻辑回归分类器的最新性能，达到了大于 0.7 的平均 F1 分数，在不同粒度的分类器中实现泛化和过拟合之间的平衡。

May, 2016

结合无上下文信息和上下文信息表示进行阿拉伯语挖苦检测和情感识别

本研究提出了一种基于 AraBERT 语言模型与在阿拉伯社交媒体文献库上训练的静态词向量结合的混合模型，应用于阿拉伯推文的讽刺性和情感极性检测任务，实现了优异的 F1 - 讽刺得分和 F-PN 情感得分，并在两项任务中均优于多个现有的方法。

Mar, 2021

AraBERT：基于 Transformer 的阿拉伯语语言理解模型

使用语言特定的 BERT 模型预训练，构建了 AraBERT 模型，以在阿拉伯语 NLP 任务方面实现最先进的表现。

Feb, 2020

多语言情感分析的集成语言模型

社交媒体的快速发展使得我们能够分析用户意见。尽管常用语言的情感分析已经取得了显著的进展，但由于资源限制，低资源语言像阿拉伯语等仍然很少有研究。本研究探讨了 SemEval-17 和阿拉伯语情感推文数据集上的推文文本的情感分析，并研究了四种预训练语言模型以及提出了两种集成语言模型。我们的发现包括单语言模型表现出更好的性能，集成模型优于基线，而多数投票集成模型胜过英语。

Mar, 2024

基于阿拉伯语推文的预训练 BERT：实践考虑

本研究使用不同规模的训练集、正式和非正式阿拉伯语以及不同的语言预处理方式对 BERT 进行预训练，旨在支持阿拉伯方言和社交媒体。实验证实了数据多样性与语言感知分词的核心作用，也证明了更多的数据或更多的训练步骤并不能保证更好的模型，最终得到的 QARiB 模型在一些下游任务中取得了最新的最佳结果。

Feb, 2021

ArAIEval 共享任务中的 MAVERICKS：构建更安全的数字空间 -- 转换器集成模型解决欺骗与说服

我们在本文中重点介绍了我们为《2023 年阿拉伯语 AI 任务评估（ArAiEval）共享任务》开展的方法。我们提出了针对共享任务的任务 1-A 和任务 2-A 的方法，重点是说服技巧检测和虚假信息检测。检测说服技巧和虚假信息已成为避免真实信息扭曲的必要手段。该任务使用多种体裁的推文和新闻文章来进行给定的二元分类问题。我们尝试了在阿拉伯语上预训练的几种基于 Transformer 的模型，并在提供的数据集上进行了微调。我们采用集成方法来提高系统的性能。我们在任务 1-A 上获得了 0.742 的微平均 F1 分数（排行榜第 8），在任务 2-A 上获得了 0.901 的微平均 F1 分数（排行榜第 7）。

Nov, 2023

解释阿拉伯语 Transformer 模型

本研究探究了基于不同阿拉伯语言方言预训练模型的内部表示，并使用三种内在任务对这些模型进行了层和神经元分析，包括两种基于 MSA 的形态标注任务和一种方言识别任务。研究发现，单词形态是在较低和中间层中学习的；方言识别需要更多的知识，因此即使在最终层中也需要保留；尽管词汇有很大的重叠，基于 MSA 的模型无法捕捉阿拉伯语方言的细微差别，而嵌入层中的神经元是多义的，而中间层中的神经元则专门用于特定的属性。

Jan, 2022

基于 BERT 的集成方法用于仇恨言论检测

本文聚焦于利用包括 BERT 在内的多个深度模型以及集成学习等技术，对社交媒体上的仇恨言论进行分类，使用三个公开 Twitter 数据集进行实验并考察多种方法的分类性能，最终以新数据集 DHO 进行多标签分类，取得了不错的成果，尤其在集成学习方面表现良好，如在 Davidson 数据集上采用 stacking 技术得到了 97% 的 F1 得分，而在 DHO 数据集上汇聚集成学习技术得到了 77% 的 F1 得分。

Sep, 2022

ArAIEval 共享任务：阿拉伯语文本中的说服技巧和虚假信息检测

介绍了 ArAIEval 共享任务的概述，该任务主要包括通过检测推文和新闻文章中的说服技巧来识别说服技巧，并通过推文中的二进制和多类别设置来检测虚假信息。

Nov, 2023