Aug, 2023

DictaBERT:现代希伯来语的最先进 BERT 套件

TL;DR我们提出了 DictaBERT,这是一种用于现代希伯来语的最新预训练 BERT 模型,其在大多数基准测试上超越了现有模型。此外,我们发布了两个针对希伯来文本分析中的两个基础任务进行了细化调整的模型版本:前缀分词和形态标记。这些经过精细调整的模型可以让任何开发者通过调用 HuggingFace 模型的一个简单调用来进行希伯来语句子的前缀分词和形态标记,而不需要集成任何额外的库或代码。在本文中,我们详细描述了训练细节以及在不同基准测试上的结果。我们将这些模型及其使用示例代码发布给社区,作为我们促进希伯来语自然语言处理领域进一步研究和开发的目标的一部分。