Sep, 2023

使用 BERT 的希伯来语冒犯语料库和检测

TL;DR在本研究中,我们提供了希伯来语的新冒犯性语言语料库,使用推特上的 15,881 条推文,并由阿拉伯 - 希伯来双语人士对其进行了五个类别(辱骂、仇恨、暴力、色情或无冒犯)的标注,我们使用我们提出的数据集和另一个已发布的数据集对两个希伯来语 BERT 模型(HeBERT 和 AlephBERT)进行了微调,观察到我们的数据与 D_OLaH 相结合可以将 HeBERT 的性能提升 2%。将 AlephBERT 在我们的数据上进行微调并在 D_OLaH 上进行测试,准确率达到了 69%,而在 D_OLaH 上进行微调并在我们的数据上进行测试,准确率达到了 57%,这可能意味着我们提供的数据的通用性。我们的数据集和微调模型已在 GitHub 和 Huggingface 上提供。