AraMUS: 将数据和模型规模的极限推向阿拉伯语自然语言处理

Jun, 2023

AraMUS: 将数据和模型规模的极限推向阿拉伯语自然语言处理

AraMUS: Pushing the Limits of Data and Model Scale for Arabic Natural Language Processing

Asaad Alghamdi, Xinyu Duan, Wei Jiang, Zhenhai Wang, Yimeng Wu...

TL;DR本文介绍 AraMUS—— 最大的预训练阿拉伯语言模型，基于 529GB 高质量的阿拉伯文本数据，该模型在通用语言处理任务中达到了最先进的性能。此外，与现有的阿拉伯语言模型相比，AraMUS 表现出了优秀的少样本学习能力。

Abstract

Developing monolingual large pre-trained language models (PLMs) is shown to be very successful in handling different tasks in Natural Language Processing (nlp). In this work, we present AraMUS, the largest

pre-trained language models arabic nlp few-shot learning classification

发现论文，激发创造

面向语言建模的大规模多样化阿拉伯语语料库

这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库，旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外，该语料库还被用于大型阿拉伯语言模型的训练，在对典型的 NLP 任务进行微调时，与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升，据我所知，这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。

Jan, 2022

重新审视预训练语言模型及其在阿拉伯语自然语言理解中的评估

通过提供三种新的阿拉伯 BERT 模型 (JABER、Char-JABER 和 SABER) 和两种新的 T5 模型 (AT5S 和 AT5B)，并在包括 ALUE 在内的阿拉伯自然语言理解任务和 ARGEN 基准子集上实验性地对现有最先进模型的表现进行了系统性评估，得出了我们的模型在辨别性和生成性阿拉伯自然语言理解和生成任务方面具有显著优势，并达到了新的最先进性能。

May, 2022

关于阿拉伯语语言模型预训练中数据规模的重要性

通过在规模庞大、高质量的阿拉伯语语料库上重新训练，我们显著提高了领先的阿拉伯编码器型 BERT-based 和编码器解码器型 T5-based 的性能，表现出同类模型的最新技术结果；我们的分析强烈暗示，预训练数据远远是性能的主要贡献因素，超越其他因素。

Jan, 2024

101 亿阿拉伯语词汇数据集

该研究致力于解决阿拉伯地区数据稀缺的问题，以鼓励开发真实地反映该地区语言和细微差异的阿拉伯语言模型。通过从 Common Crawl WET 文件中提取大量阿拉伯文本数据，经过严格的清洗和去重处理，形成了迄今为止最大的 1010 亿阿拉伯词汇数据集，这将对真实的阿拉伯语言模型的发展产生重要贡献。该研究不仅强调了创造语言和文化准确的阿拉伯语言模型的潜力，还为增强阿拉伯语言模型的真实性奠定了未来研究的先例。

Apr, 2024

AraBERT：基于 Transformer 的阿拉伯语语言理解模型

使用语言特定的 BERT 模型预训练，构建了 AraBERT 模型，以在阿拉伯语 NLP 任务方面实现最先进的表现。

Feb, 2020

阿拉伯语 MMLU: 评估阿拉伯语的大规模多任务语言理解

评估语言模型、阿拉伯语多任务语言理解基准、模型性能

Feb, 2024

AraPoemBERT：用于阿拉伯诗歌分析的预训练语言模型

介绍了 AraPoemBERT，这是一个在阿拉伯诗歌文本上进行预训练的阿拉伯语言模型，通过在多个与阿拉伯诗歌相关的 NLP 任务上展示其有效性，该模型在大多数下游任务中表现出色，取得了最新成果的结果。

Mar, 2024

ARBERT 和 MARBERT: 面向阿拉伯语的深度双向转换器

本文提出了两个基于深度双向变压器的模型 ARBERT 和 MARBERT，并引入了一个针对多语言阿拉伯语理解评估的基准 ARLUE。在 42 个数据集上进行了一系列基准实验，结果表明将这两种模型细化后在大多数任务上取得了最先进的结果并提供了公共可用的模型。

Dec, 2020

AlephBERT：一个适用于希伯来自然语言处理应用的大型预训练语言模型

本文介绍了 AlephBERT，一个用于现代希伯来语的大型预训练语言模型，使用该模型在多个希伯来语任务和基准测试中提供了新的最先进结果，包括分词、词性标注、完整的形态标注、命名实体识别和情感分析，并公开了模型。

Apr, 2021

关于预训练语言模型 N-gram 逼近的研究

本研究调查了预先训练的语言模型在自动语音识别中的潜在用途，对比了大规模文本抽样和概率转换的应用。在八个特定领域的语料库中，发现采样的近似方法支持使用，插值与大规模文本语料库一起使用对比基线三元组能使测试困惑度提高 15％，我们引入了一种有限制的词汇解码方法，这将进一步提高 5％的改进。

Jun, 2023