阿拉伯预训练语言模型中变体、大小和任务类型的相互作用
该研究利用预训练转换器语言模型对不同形式的阿拉伯语进行形态句法标记,优于现有系统,在不同区域的阿拉伯语可获得显著改进,特别是在资源匮乏的情况下,利用其他高资源方言的数据进行微调,以及使用高质量的形态分析器作为外部语言资源是有益的。
Oct, 2021
通过在规模庞大、高质量的阿拉伯语语料库上重新训练,我们显著提高了领先的阿拉伯编码器型 BERT-based 和编码器解码器型 T5-based 的性能,表现出同类模型的最新技术结果;我们的分析强烈暗示,预训练数据远远是性能的主要贡献因素,超越其他因素。
Jan, 2024
在使用多语言语言模型进行低资源和高资源语言的任务中,阿拉伯语的方言差异引起了广泛关注。本文采用 mBERT 预训练和两种持续预训练方法,证明这些方法都可以帮助提高方言分类任务的性能。
Nov, 2022
本研究探究了基于不同阿拉伯语言方言预训练模型的内部表示,并使用三种内在任务对这些模型进行了层和神经元分析,包括两种基于 MSA 的形态标注任务和一种方言识别任务。研究发现,单词形态是在较低和中间层中学习的;方言识别需要更多的知识,因此即使在最终层中也需要保留;尽管词汇有很大的重叠,基于 MSA 的模型无法捕捉阿拉伯语方言的细微差别,而嵌入层中的神经元是多义的,而中间层中的神经元则专门用于特定的属性。
Jan, 2022
本研究提出在零或少量标注数据的情况下,通过自训练预训练语言模型,利用数据丰富的语言资源,提高数据匮乏语言变种的性能,以阿拉伯语序列标注为例,利用仅在现代标准阿拉伯语上微调的语言模型,预测多个方言阿拉伯语的命名实体和词性标注,表明自训练是有效的,并能在极少的标注数据下获得更好的效果。
Jan, 2021
通过提供三种新的阿拉伯 BERT 模型 (JABER、Char-JABER 和 SABER) 和两种新的 T5 模型 (AT5S 和 AT5B),并在包括 ALUE 在内的阿拉伯自然语言理解任务和 ARGEN 基准子集上实验性地对现有最先进模型的表现进行了系统性评估,得出了我们的模型在辨别性和生成性阿拉伯自然语言理解和生成任务方面具有显著优势,并达到了新的最先进性能。
May, 2022
对在不同阿拉伯语方言上训练的 transformer 模型进行层与神经元分析,研究有趣的发现如下:①单词形态在较低和中间层次上学习,②句法依赖在较高层次上被捕获,③虽然 MSA 模型的词汇表与方言词汇表有很大重叠,但仍然无法捕捉阿拉伯语方言的微妙之处,④嵌入层的神经元是一词多义的,而中间层的神经元仅适用于特定属性。
Oct, 2022
本研究使用不同规模的训练集、正式和非正式阿拉伯语以及不同的语言预处理方式对 BERT 进行预训练,旨在支持阿拉伯方言和社交媒体。实验证实了数据多样性与语言感知分词的核心作用,也证明了更多的数据或更多的训练步骤并不能保证更好的模型,最终得到的 QARiB 模型在一些下游任务中取得了最新的最佳结果。
Feb, 2021
这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库,旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外,该语料库还被用于大型阿拉伯语言模型的训练,在对典型的 NLP 任务进行微调时,与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升,据我所知,这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。
Jan, 2022
我们研究了预训练数据量对紧凑型语言模型的影响。我们发现,即使只有 100MB 的预训练数据,通过在法语问答数据集(FQuAD)上微调 BERT 模型,都可以得到表现很好的模型。此外,我们还展示了,除了任务特定的语料库,中等数量的预训练数据并不能取得实质性的改进。
Oct, 2020