Jun, 2024

ToxiCloakCN: 评估中文攻击性语言识别模型的鲁棒性

TL;DR通过改进的数据集在汉语中测试大型语言模型(LLMs)对于侮辱性内容的检测,研究表明现有模型在存在这些干扰时检测侮辱性内容的性能明显不足,强调了对进阶技术的迫切需求以应对逃避检测机制的不断演变的策略。