AraBERT:基于 Transformer 的阿拉伯语语言理解模型
本文主要研究阿拉伯语文本数据的分类,特别关注自然语言推理和矛盾检测。通过创建专用数据集并利用语言学上知识进行预训练,发现了具有竞争力的阿拉伯语特定模型(AraBERT),并成功应用于大规模任务评估及多任务预训练的首个阿拉伯语背景应用。
Jul, 2023
本文提出了一种用于波斯语的单语 BERT 模型(ParsBERT),并采用庞大的数据集进行预训练和各种自然语言处理任务,证明该模型相对于其他结构和多语言模型具有更好的性能。
May, 2020
本文介紹了 AraLegal-BERT 模型,評估其對於阿拉伯法律文件的表現。結果證明該模型在自然語言理解 (NLU) 任務上比一般的 BERT 及原始版本表現更為準確。
Oct, 2022
介绍了 AraPoemBERT,这是一个在阿拉伯诗歌文本上进行预训练的阿拉伯语言模型,通过在多个与阿拉伯诗歌相关的 NLP 任务上展示其有效性,该模型在大多数下游任务中表现出色,取得了最新成果的结果。
Mar, 2024
通过提供三种新的阿拉伯 BERT 模型 (JABER、Char-JABER 和 SABER) 和两种新的 T5 模型 (AT5S 和 AT5B),并在包括 ALUE 在内的阿拉伯自然语言理解任务和 ARGEN 基准子集上实验性地对现有最先进模型的表现进行了系统性评估,得出了我们的模型在辨别性和生成性阿拉伯自然语言理解和生成任务方面具有显著优势,并达到了新的最先进性能。
May, 2022
本文介绍了 AraBART,这是第一个使用 BART 预训练技术进行端到端预训练的阿拉伯语模型,通过在多个抽象摘要数据集上的测试,显示 AraBART 在摘要生成方面具有较好的性能,超过了类似的基线模型。
Mar, 2022
本文研究了针对阿拉伯自然语言处理和英语到阿拉伯语的零样本迁移学习设计的定制双语 BERT 模型 - GigaBERT,重点研究了它在四个信息抽取任务中的零样本迁移效果,实验证明该模型在监督和零样本迁移设置下都显著优于 mBERT、XLM-RoBERTa 和 AraBERT。
Apr, 2020
本研究使用不同规模的训练集、正式和非正式阿拉伯语以及不同的语言预处理方式对 BERT 进行预训练,旨在支持阿拉伯方言和社交媒体。实验证实了数据多样性与语言感知分词的核心作用,也证明了更多的数据或更多的训练步骤并不能保证更好的模型,最终得到的 QARiB 模型在一些下游任务中取得了最新的最佳结果。
Feb, 2021
本文提出了两个基于深度双向变压器的模型 ARBERT 和 MARBERT,并引入了一个针对多语言阿拉伯语理解评估的基准 ARLUE。在 42 个数据集上进行了一系列基准实验,结果表明将这两种模型细化后在大多数任务上取得了最先进的结果并提供了公共可用的模型。
Dec, 2020
本研究探究了基于不同阿拉伯语言方言预训练模型的内部表示,并使用三种内在任务对这些模型进行了层和神经元分析,包括两种基于 MSA 的形态标注任务和一种方言识别任务。研究发现,单词形态是在较低和中间层中学习的;方言识别需要更多的知识,因此即使在最终层中也需要保留;尽管词汇有很大的重叠,基于 MSA 的模型无法捕捉阿拉伯语方言的细微差别,而嵌入层中的神经元是多义的,而中间层中的神经元则专门用于特定的属性。
Jan, 2022