HateProof：恶意 Meme 检测系统真的稳健吗？

WWWFeb, 2023

HateProof: Are Hateful Meme Detection Systems really Robust?

Piush Aggarwal, Pranit Chawla, Mithun Das, Punyajoy Saha, Binny Mathew...

TL;DR社交媒体上传播仇恨的行为越来越多，其中包括使用多模态方式的恶意内容，容易被现有的检测系统所规避。本文通过对现有系统进行外部对抗攻击，检验了其脆弱性，并提出了使用对比学习和基于对抗训练的方法来提高鲁棒性。实验结果表明，使用这两种方法可以在某些攻击下重获性能。

Abstract

Exploiting social media to spread hate has tremendously increased over the years. Lately, multi-modal hateful content such as memes has dr

发现论文，激发创造

本篇论文旨在针对多种形式的恶意言论，特别是采用 Memes 表达的恶意言论开发一种新的多模态框架，该框架通过交叉验证的集成学习等增强措施，有效提高了已有多模态方法的性能，并在 Facebook 组织的 2020 年恶意 Memes 挑战的第二阶段中获得了 AUROC 评分 80.53，位列第四。

Dec, 2020

本文提出了一种新的多模态方法，将图像字幕流程融合到恶意模因检测过程中，以提高其有效性，以在 Hateful Memes Detection Challenge 上取得了良好的结果。

Nov, 2020

本文探讨在 Facebook Meme Challenge 中通过多模型和目标检测、图像说明和情感分析等技术的结合来解决恶意文本与图像的混淆问题以提高分类准确性。

Dec, 2020

这项研究探讨了视觉语言模型在处理令人费解任务（如仇恨迷因检测）中的有效性，并观察到大型视觉语言模型在零样本仇恨迷因检测方面仍然存在脆弱性。

Feb, 2024

本文介绍了一种利用图像字幕工具引入自动字幕以模拟图像内容和遮盖文本间的对比，在处理讨论是否具有仇恨色彩的 “违反社交规范” 的表情包挑战中，可以改进单模型和多模型。同时，在处理单模型中，继续在增强和原始字幕对上进行预训练，对于分类准确性有很大的益处。

Sep, 2021

Hateful Memes Challenge 使用 VisualBERT 多模态训练进行恶意标记检测，在挑战测试集中取得了 0.811 AUROC 和 0.765 的准确率，获得了 3173 名参赛者中的第三名

Dec, 2020

该研究提出了一个新的挑战，针对多模态模因素进行分类，专注于检测多模态模因素中的仇恨言论，并构造了一个难以依靠单模态信号的数据集，要求进行微妙的推理，证明了该任务的难度，并强调这个重要问题对社会的挑战。

May, 2020

本研究探讨了几种最新的视觉 - 语言 Transformer 结构，提出改进措施，以使它们在检测仇恨言论的任务中更接近于人类的准确性。提出的模型明显优于基准线，并在 3100 多个参赛者中排名第 5。

Dec, 2020

本文提出了一种名为 DisMultiHate 的新框架，通过对目标实体进行解缠来提高多模式 meme 中令人讨厌内容的分类和可解释性。实验结果表明 DisMultiHate 能够胜过单一模态和多模态基线，这个方法对于多模态令人讨厌内容的分类任务具有很好的解释性。

Aug, 2021

本研究探讨了如何解决图片与文本混合的分类问题，尝试使用半监督学习技术生成更多可标注的恶意模因来提升分类准确率，但必须经过人工过滤和筛选。

Dec, 2022