Jun, 2024
ToxiCloakCN: 评估中文攻击性语言识别模型的鲁棒性
ToxiCloakCN: Evaluating Robustness of Offensive Language Detection in Chinese with Cloaking Perturbations
Yunze Xiao, Yujia Hu, Kenny Tsu Wei Choo, Roy Ka-wei Lee
TL;DR通过改进的数据集在汉语中测试大型语言模型(LLMs)对于侮辱性内容的检测,研究表明现有模型在存在这些干扰时检测侮辱性内容的性能明显不足,强调了对进阶技术的迫切需求以应对逃避检测机制的不断演变的策略。