AraMUS: 将数据和模型规模的极限推向阿拉伯语自然语言处理
这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库,旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外,该语料库还被用于大型阿拉伯语言模型的训练,在对典型的 NLP 任务进行微调时,与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升,据我所知,这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。
Jan, 2022
通过提供三种新的阿拉伯 BERT 模型 (JABER、Char-JABER 和 SABER) 和两种新的 T5 模型 (AT5S 和 AT5B),并在包括 ALUE 在内的阿拉伯自然语言理解任务和 ARGEN 基准子集上实验性地对现有最先进模型的表现进行了系统性评估,得出了我们的模型在辨别性和生成性阿拉伯自然语言理解和生成任务方面具有显著优势,并达到了新的最先进性能。
May, 2022
通过在规模庞大、高质量的阿拉伯语语料库上重新训练,我们显著提高了领先的阿拉伯编码器型 BERT-based 和编码器解码器型 T5-based 的性能,表现出同类模型的最新技术结果;我们的分析强烈暗示,预训练数据远远是性能的主要贡献因素,超越其他因素。
Jan, 2024
该研究致力于解决阿拉伯地区数据稀缺的问题,以鼓励开发真实地反映该地区语言和细微差异的阿拉伯语言模型。通过从 Common Crawl WET 文件中提取大量阿拉伯文本数据,经过严格的清洗和去重处理,形成了迄今为止最大的 1010 亿阿拉伯词汇数据集,这将对真实的阿拉伯语言模型的发展产生重要贡献。该研究不仅强调了创造语言和文化准确的阿拉伯语言模型的潜力,还为增强阿拉伯语言模型的真实性奠定了未来研究的先例。
Apr, 2024
使用语言特定的 BERT 模型预训练,构建了 AraBERT 模型,以在阿拉伯语 NLP 任务方面实现最先进的表现。
Feb, 2020
介绍了 AraPoemBERT,这是一个在阿拉伯诗歌文本上进行预训练的阿拉伯语言模型,通过在多个与阿拉伯诗歌相关的 NLP 任务上展示其有效性,该模型在大多数下游任务中表现出色,取得了最新成果的结果。
Mar, 2024
本文提出了两个基于深度双向变压器的模型 ARBERT 和 MARBERT,并引入了一个针对多语言阿拉伯语理解评估的基准 ARLUE。在 42 个数据集上进行了一系列基准实验,结果表明将这两种模型细化后在大多数任务上取得了最先进的结果并提供了公共可用的模型。
Dec, 2020
本文介绍了 AlephBERT,一个用于现代希伯来语的大型预训练语言模型,使用该模型在多个希伯来语任务和基准测试中提供了新的最先进结果,包括分词、词性标注、完整的形态标注、命名实体识别和情感分析,并公开了模型。
Apr, 2021
本研究调查了预先训练的语言模型在自动语音识别中的潜在用途,对比了大规模文本抽样和概率转换的应用。在八个特定领域的语料库中,发现采样的近似方法支持使用,插值与大规模文本语料库一起使用对比基线三元组能使测试困惑度提高 15%,我们引入了一种有限制的词汇解码方法,这将进一步提高 5%的改进。
Jun, 2023