Nov, 2022

具有超大词汇量的大型预训练模型:希伯来 BERT 模型的对比分析和一个新模型的超越

TL;DR本篇论文提出了一种新的针对现代希伯来语的预训练语言模型 AlephBERTGimmel,其使用比以前的标准希伯来语 PLMs 更大的词汇表(128K 项)。通过与所有先前的希伯来语 PLMs(mBERT、heBERT、AlephBERT)进行对比分析,并评估了更大词汇量对任务性能的影响,实验表明,更大的词汇量导致的分割更少,而减少分割有助于模型性能,最终,这一新模型实现了所有可用的希伯来基准测试中的新 SOTA,同时为不受限制的使用公开发布。