AraLegal-BERT:针对阿拉伯语法律文本的预训练语言模型
使用语言特定的 BERT 模型预训练,构建了 AraBERT 模型,以在阿拉伯语 NLP 任务方面实现最先进的表现。
Feb, 2020
本文针对大量阿拉伯文文档分类问题,提出了两种简单而有效的机器学习模型,并对比了 RoBERT 和 Longformer 两个模型在不同数据集上的结果,结果显示我们的模型表现更优秀。
May, 2023
本文提出了两个基于深度双向变压器的模型 ARBERT 和 MARBERT,并引入了一个针对多语言阿拉伯语理解评估的基准 ARLUE。在 42 个数据集上进行了一系列基准实验,结果表明将这两种模型细化后在大多数任务上取得了最先进的结果并提供了公共可用的模型。
Dec, 2020
本研究使用不同规模的训练集、正式和非正式阿拉伯语以及不同的语言预处理方式对 BERT 进行预训练,旨在支持阿拉伯方言和社交媒体。实验证实了数据多样性与语言感知分词的核心作用,也证明了更多的数据或更多的训练步骤并不能保证更好的模型,最终得到的 QARiB 模型在一些下游任务中取得了最新的最佳结果。
Feb, 2021
本文研究了 BERT 在法律领域中的适应性指南并提出使用原始 BERT、在领域特定语料库上进行追加预训练的 BERT 和在领域特定语料库上从头开始预训练的 BERT 三种策略。并针对下游任务进行更广泛的超参数搜索空间,并发布了 LEGAL-BERT,用于辅助法律 NLP 研究、计算法律和法律技术应用。
Oct, 2020
介绍了 AraPoemBERT,这是一个在阿拉伯诗歌文本上进行预训练的阿拉伯语言模型,通过在多个与阿拉伯诗歌相关的 NLP 任务上展示其有效性,该模型在大多数下游任务中表现出色,取得了最新成果的结果。
Mar, 2024
本文介绍了 AraBART,这是第一个使用 BART 预训练技术进行端到端预训练的阿拉伯语模型,通过在多个抽象摘要数据集上的测试,显示 AraBART 在摘要生成方面具有较好的性能,超过了类似的基线模型。
Mar, 2022
本文研究了针对阿拉伯自然语言处理和英语到阿拉伯语的零样本迁移学习设计的定制双语 BERT 模型 - GigaBERT,重点研究了它在四个信息抽取任务中的零样本迁移效果,实验证明该模型在监督和零样本迁移设置下都显著优于 mBERT、XLM-RoBERTa 和 AraBERT。
Apr, 2020
本文介绍了一种使用 fine-tuning 方法构建阿拉伯语文本摘要模型的方法,并且展示了该模型在抽取式和文本生成式摘要任务中的性能,同时还展示了该模型在多语种语料库上的性能表现。
Mar, 2020
本文提出了一种用于波斯语的单语 BERT 模型(ParsBERT),并采用庞大的数据集进行预训练和各种自然语言处理任务,证明该模型相对于其他结构和多语言模型具有更好的性能。
May, 2020