Oct, 2023

OffMix-3L: 孟加拉文 - 英文 - 印地文混合语言中用于冒犯性语言识别的新数据集

TL;DR本文介绍了 OffMix-3L,这是一个包含来自三种不同语言的混合代码数据的新颖的冒犯性语言识别数据集。我们在这个数据集上尝试了几种模型,并观察到 BanglishBERT 在其他基于 Transformer 的模型和 GPT-3.5 之上表现出色。