May, 2024

SGHateCheck: 检测新加坡低资源语言中仇恨言论的功能测试

TL;DR为解决当前对仇恨言论的检测模型的局限性,本文介绍了一种新颖的框架 extsf {SGHateCheck},该框架专为新加坡和东南亚地区的语言和文化背景而设计。它扩展了 HateCheck 和 MHC 的功能测试方法,利用大型语言模型进行翻译和改编成新加坡主要语言,并通过本地标注人员进行改进。 extsf {SGHateCheck} 揭示了现有模型的关键缺陷,突出了它们在敏感内容管理方面的不足。本研究旨在促进开发针对不同语言环境的更有效的仇恨言论检测工具,特别是针对新加坡和东南亚的背景。