AraLegal-BERT：针对阿拉伯语法律文本的预训练语言模型

Oct, 2022

AraLegal-BERT：针对阿拉伯语法律文本的预训练语言模型

AraLegal-BERT: A pretrained language model for Arabic Legal text

Muhammad AL-Qurishi, Sarah AlQaseemi, Riad Soussi

TL;DR本文介紹了 AraLegal-BERT 模型，評估其對於阿拉伯法律文件的表現。結果證明該模型在自然語言理解 (NLU) 任務上比一般的 BERT 及原始版本表現更為準確。

Abstract

The effectiveness of the bert model on multiple linguistic tasks has been well documented. On the other hand, its potentials for narrow and specific domains such as legal, have not been fully explored. In this pa

bert legal arabic nlu transformer

发现论文，激发创造

AraBERT：基于 Transformer 的阿拉伯语语言理解模型

使用语言特定的 BERT 模型预训练，构建了 AraBERT 模型，以在阿拉伯语 NLP 任务方面实现最先进的表现。

Feb, 2020

利用 BERT 语言模型进行阿拉伯语长文档分类

本文针对大量阿拉伯文文档分类问题，提出了两种简单而有效的机器学习模型，并对比了 RoBERT 和 Longformer 两个模型在不同数据集上的结果，结果显示我们的模型表现更优秀。

May, 2023

ARBERT 和 MARBERT: 面向阿拉伯语的深度双向转换器

本文提出了两个基于深度双向变压器的模型 ARBERT 和 MARBERT，并引入了一个针对多语言阿拉伯语理解评估的基准 ARLUE。在 42 个数据集上进行了一系列基准实验，结果表明将这两种模型细化后在大多数任务上取得了最先进的结果并提供了公共可用的模型。

Dec, 2020

基于阿拉伯语推文的预训练 BERT：实践考虑

本研究使用不同规模的训练集、正式和非正式阿拉伯语以及不同的语言预处理方式对 BERT 进行预训练，旨在支持阿拉伯方言和社交媒体。实验证实了数据多样性与语言感知分词的核心作用，也证明了更多的数据或更多的训练步骤并不能保证更好的模型，最终得到的 QARiB 模型在一些下游任务中取得了最新的最佳结果。

Feb, 2021

LEGAL-BERT：法学院里的大毛怪

本文研究了 BERT 在法律领域中的适应性指南并提出使用原始 BERT、在领域特定语料库上进行追加预训练的 BERT 和在领域特定语料库上从头开始预训练的 BERT 三种策略。并针对下游任务进行更广泛的超参数搜索空间，并发布了 LEGAL-BERT，用于辅助法律 NLP 研究、计算法律和法律技术应用。

Oct, 2020

AraPoemBERT：用于阿拉伯诗歌分析的预训练语言模型

介绍了 AraPoemBERT，这是一个在阿拉伯诗歌文本上进行预训练的阿拉伯语言模型，通过在多个与阿拉伯诗歌相关的 NLP 任务上展示其有效性，该模型在大多数下游任务中表现出色，取得了最新成果的结果。

Mar, 2024

AraBART：用于抽象化摘要的预训练阿拉伯语序列到序列模型

本文介绍了 AraBART，这是第一个使用 BART 预训练技术进行端到端预训练的阿拉伯语模型，通过在多个抽象摘要数据集上的测试，显示 AraBART 在摘要生成方面具有较好的性能，超过了类似的基线模型。

Mar, 2022

基于预训练 Transformer 的阿拉伯语信息提取实证研究

本文研究了针对阿拉伯自然语言处理和英语到阿拉伯语的零样本迁移学习设计的定制双语 BERT 模型 - GigaBERT，重点研究了它在四个信息抽取任务中的零样本迁移效果，实验证明该模型在监督和零样本迁移设置下都显著优于 mBERT、XLM-RoBERTa 和 AraBERT。

Apr, 2020

阿拉伯文本摘要的 BERT 微调

本文介绍了一种使用 fine-tuning 方法构建阿拉伯语文本摘要模型的方法，并且展示了该模型在抽取式和文本生成式摘要任务中的性能，同时还展示了该模型在多语种语料库上的性能表现。

Mar, 2020

ParsBERT：基于 Transformer 的波斯语语言理解模型

本文提出了一种用于波斯语的单语 BERT 模型（ParsBERT），并采用庞大的数据集进行预训练和各种自然语言处理任务，证明该模型相对于其他结构和多语言模型具有更好的性能。

May, 2020