Mar, 2023

通过人为扰动在线评估内容审核机器学习模型

TL;DR本文提出了一种包含人为写作的扰动,用于评估社交媒体上毒性发言检测模型的效果,并测试了该测试集在深度学习 (BERT 和 RoBERTa) 和黑盒 API(如 Perspective API)上的表现,结果表明带有真实人为扰动的对抗攻击仍然有效。