WWWFeb, 2023

HateProof:恶意 Meme 检测系统真的稳健吗?

TL;DR社交媒体上传播仇恨的行为越来越多,其中包括使用多模态方式的恶意内容,容易被现有的检测系统所规避。本文通过对现有系统进行外部对抗攻击,检验了其脆弱性,并提出了使用对比学习和基于对抗训练的方法来提高鲁棒性。实验结果表明,使用这两种方法可以在某些攻击下重获性能。