利用 BERT 语言模型进行阿拉伯语长文档分类

May, 2023

利用 BERT 语言模型进行阿拉伯语长文档分类

Leveraging BERT Language Model for Arabic Long Document Classification

Muhammad AL-Qurishi

TL;DR本文针对大量阿拉伯文文档分类问题，提出了两种简单而有效的机器学习模型，并对比了 RoBERT 和 Longformer 两个模型在不同数据集上的结果，结果显示我们的模型表现更优秀。

Abstract

Given the number of Arabic speakers worldwide and the notably large amount of content in the web today in some fields such as law, medicine, or even news, documents of considerable length are produced regularly. Classifying those documents using traditional learning models is often impractical since extended length of the documents increases computational re

arabic documents document classification longformer robert machine learning

发现论文，激发创造

AraLegal-BERT：针对阿拉伯语法律文本的预训练语言模型

本文介紹了 AraLegal-BERT 模型，評估其對於阿拉伯法律文件的表現。結果證明該模型在自然語言理解 (NLU) 任務上比一般的 BERT 及原始版本表現更為準確。

Oct, 2022

AraBERT：基于 Transformer 的阿拉伯语语言理解模型

使用语言特定的 BERT 模型预训练，构建了 AraBERT 模型，以在阿拉伯语 NLP 任务方面实现最先进的表现。

Feb, 2020

长文档分类的比较研究

研究长文档分类任务使用标准的机器学习方法（如 Naive Bayes 和 BERT），在六个文本分类数据集上进行了广泛的算法比较研究，发现 BERT 模型性能稳定良好，但基于传统机器学习模型（如 BiLSTM 和 GloVe）也能在大多数数据集上表现出色，只在较困难的数据集（如 IMDB 情感分析）中对性能提升明显。

Nov, 2021

面向语言建模的大规模多样化阿拉伯语语料库

这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库，旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外，该语料库还被用于大型阿拉伯语言模型的训练，在对典型的 NLP 任务进行微调时，与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升，据我所知，这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。

Jan, 2022

利用多语言资源进行阿拉伯语问答

使用基于 BERT 的多语言模型并利用领域特定的大型阿拉伯语语料库，训练两个 BERT 模型实现确定问题答案起始位置和可行答案的排序。

May, 2022

利用变压器模型和语言学知识预训练技术提升阿拉伯语自然语言推断能力

本文主要研究阿拉伯语文本数据的分类，特别关注自然语言推理和矛盾检测。通过创建专用数据集并利用语言学上知识进行预训练，发现了具有竞争力的阿拉伯语特定模型（AraBERT），并成功应用于大规模任务评估及多任务预训练的首个阿拉伯语背景应用。

Jul, 2023

DocBERT：文件分类的 BERT 模型

本研究使用 BERT 进行文档分类，并展示出其在四个流行数据集上的最新成果。为了解决 BERT 推理的计算开销，研究者提出使用知识蒸馏技术，将 BERT 的知识转移到小型双向 LSTM 中，并使用 30 倍更少的参数达到了 BERT-base 相当的性能。该研究的主要贡献在于提高了基线水平，为未来的工作提供了基础。

Apr, 2019

重新审视预训练语言模型及其在阿拉伯语自然语言理解中的评估

通过提供三种新的阿拉伯 BERT 模型 (JABER、Char-JABER 和 SABER) 和两种新的 T5 模型 (AT5S 和 AT5B)，并在包括 ALUE 在内的阿拉伯自然语言理解任务和 ARGEN 基准子集上实验性地对现有最先进模型的表现进行了系统性评估，得出了我们的模型在辨别性和生成性阿拉伯自然语言理解和生成任务方面具有显著优势，并达到了新的最先进性能。

May, 2022

基于大型语言模型的阿拉伯法律裁决预测

在阿拉伯法律分析领域中，我们的研究通过使用现有最先进的大型语言模型，全面预测了一批基于商业法庭真实案例的阿拉伯法院判决。通过评估不同预训练模型和训练方法的性能，并采用不同的评估指标，我们发现基于 GPT-3.5 的模型在所有模型中表现最佳，超过专门针对阿拉伯文的 JAIS 模型平均得分的 50%。同时，我们还发现大语言模型在法院判决预测中的性能评估除了人工评估之外的其他指标都是不一致且不可靠的。本研究为未来的研究奠定了基础，弥合计算语言学与阿拉伯法律分析之间的差距。

Oct, 2023

AraPoemBERT：用于阿拉伯诗歌分析的预训练语言模型

介绍了 AraPoemBERT，这是一个在阿拉伯诗歌文本上进行预训练的阿拉伯语言模型，通过在多个与阿拉伯诗歌相关的 NLP 任务上展示其有效性，该模型在大多数下游任务中表现出色，取得了最新成果的结果。

Mar, 2024