May, 2023

利用可解释性设计对抗攻击并评估仇恨言论检测模型的攻击韧性

TL;DR本研究综合并比较了各种仇恨言论检测模型的鲁棒性,并使用可解释性技术评估了这些模型对抗性攻击的鲁棒性,从而发现了一些潜在的漏洞和强项,并为创建更加鲁棒和可靠的检测系统打下了基础。