Oct, 2023
利用预训练的句子变换器在印度语言中进行冒犯性语言检测
Harnessing Pre-Trained Sentence Transformers for Offensive Language
Detection in Indian Languages
TL;DR我们的研究探讨了恶意言论检测领域,特别关注孟加拉语、阿萨姆语和古吉拉特语这三种资源匮乏的印度语言。我们通过HASOC 2023数据集对预训练的BERT和SBERT模型进行微调,评估它们在恶意言论识别中的有效性。研究发现,单语句BERT模型表现出卓越的优势,特别是在孟加拉语方面表现最佳。然而,阿萨姆语和古吉拉特语的性能仍有改进的机会。我们的目标是通过打击恶意言论的泛滥来促进包容性的在线空间。