利用变压器模型和语言学知识预训练技术提升阿拉伯语自然语言推断能力

Jul, 2023

利用变压器模型和语言学知识预训练技术提升阿拉伯语自然语言推断能力

Improving Natural Language Inference in Arabic using Transformer Models and Linguistically Informed Pre-Training

Mohammad Majd Saad Al Deen, Maren Pielka, Jörn Hees, Bouthaina Soulef Abdou, Rafet Sifa

TL;DR本文主要研究阿拉伯语文本数据的分类，特别关注自然语言推理和矛盾检测。通过创建专用数据集并利用语言学上知识进行预训练，发现了具有竞争力的阿拉伯语特定模型（AraBERT），并成功应用于大规模任务评估及多任务预训练的首个阿拉伯语背景应用。

Abstract

This paper addresses the classification of arabic text data in the field of natural language processing (NLP), with a particular focus on Natural Language Inference (NLI) and →

arabic text data natural language processing natural language inference contradiction detection transformer-based machine learning models

发现论文，激发创造

AraBERT：基于 Transformer 的阿拉伯语语言理解模型

使用语言特定的 BERT 模型预训练，构建了 AraBERT 模型，以在阿拉伯语 NLP 任务方面实现最先进的表现。

Feb, 2020

ArNLI：用于蕴涵和矛盾检测的阿拉伯语自然语言推理

该研究提出了一个新的基于机器学习模型的方法来检测阿拉伯语句子对之间的矛盾。作者创建了一个丰富的数据集（ArNLI）来进行实验，并进行了多个传统机器学习分类器的比较，其中 Random Forest 分类器在三个测试数据集中的准确率分别为 99％、60％和 75％。

Sep, 2022

重新审视预训练语言模型及其在阿拉伯语自然语言理解中的评估

通过提供三种新的阿拉伯 BERT 模型 (JABER、Char-JABER 和 SABER) 和两种新的 T5 模型 (AT5S 和 AT5B)，并在包括 ALUE 在内的阿拉伯自然语言理解任务和 ARGEN 基准子集上实验性地对现有最先进模型的表现进行了系统性评估，得出了我们的模型在辨别性和生成性阿拉伯自然语言理解和生成任务方面具有显著优势，并达到了新的最先进性能。

May, 2022

阿拉伯命名实体识别综述：历史、最新进展和未来趋势

本文全面回顾了阿拉伯语命名实体识别技术的发展，特别是深度学习和预训练语言模型的最新进展，介绍了传统阿拉伯语 NER 系统和最新发展的深度学习方法，并指出了与其他语言 NER 技术的差距，为阿拉伯语 NER 未来的发展方向提供了参考。

Feb, 2023

基于阿拉伯语推文的预训练 BERT：实践考虑

本研究使用不同规模的训练集、正式和非正式阿拉伯语以及不同的语言预处理方式对 BERT 进行预训练，旨在支持阿拉伯方言和社交媒体。实验证实了数据多样性与语言感知分词的核心作用，也证明了更多的数据或更多的训练步骤并不能保证更好的模型，最终得到的 QARiB 模型在一些下游任务中取得了最新的最佳结果。

Feb, 2021

基于预训练 Transformer 的阿拉伯语信息提取实证研究

本文研究了针对阿拉伯自然语言处理和英语到阿拉伯语的零样本迁移学习设计的定制双语 BERT 模型 - GigaBERT，重点研究了它在四个信息抽取任务中的零样本迁移效果，实验证明该模型在监督和零样本迁移设置下都显著优于 mBERT、XLM-RoBERTa 和 AraBERT。

Apr, 2020

大型预训练语言模型在自然语言处理中的最新研究进展：综述

本文介绍了使用预训练和微调、提示或文本生成方法解决 NLP 任务的大型预训练基于 transformer 的语言模型，以及使用预训练语言模型生成数据进行训练或其他目的的方法，并讨论未来研究的限制和建议方向。

Nov, 2021

低资源语言的跨语言金融交易数据 NER

我们提出了一个高效的建模框架，用于半结构化文本数据中的跨语言命名实体识别。我们的方法依赖于知识蒸馏和一致性训练，并且利用预训练在源语言上的大型语言模型（XLMRoBERTa）的知识，通过学生 - 教师关系（知识蒸馏）。学生模型在低资源目标语言上采用无监督的一致性训练（使用 KL 散度损失）。我们使用两个独立的 SMS 数据集，分别是英语和阿拉伯语，每个数据集都携带有半结构化的银行交易信息，并侧重展示从英语到阿拉伯语的知识传递。通过仅使用 30 个标记样本，我们的模型可以将商家、金额和其他字段的识别从英语推广到阿拉伯语。我们的实验表明，在低资源语言的少量标记样本的情况下，学习在英语中识别实体就足以在低资源语言中达到合理的性能。该提出的框架对于开发多语言应用程序，尤其是在数字化努力依赖英语和一种或多种低资源语言的地理区域具有重要意义，有时与英语混合使用或独立使用。

Jul, 2023

基于 Transformer 的 ANER：阿拉伯语和阿拉伯文转写命名实体识别

自然语言处理中的命名实体识别（NER）是一项主要任务之一，本文介绍了一个基于 BERT 模型的用于阿拉伯语和 Arabizi 语言的网页命名实体识别器。该模型可以识别 50 个不同的实体类别，并在多个数据集上取得了高准确率，系统部署在用户友好的网页界面上供用户使用，并具备了使用 CAMeL Tools 模型的能力。

Aug, 2023

面向语言建模的大规模多样化阿拉伯语语料库

这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库，旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外，该语料库还被用于大型阿拉伯语言模型的训练，在对典型的 NLP 任务进行微调时，与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升，据我所知，这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。

Jan, 2022