文本还是图像？对于仇恨迷因检测模型的跨领域泛化能力，哪个更重要？

ACLFeb, 2024

文本还是图像？对于仇恨迷因检测模型的跨领域泛化能力，哪个更重要？

Text or Image? What is More Important in Cross-Domain Generalization Capabilities of Hate Meme Detection Models?

Piush Aggarwal, Jawar Mehrabanian, Weigang Huang, Özge Alacam, Torsten Zesch

TL;DR通过相关证据，该研究论文探讨了多模态仇恨迷因检测中跨领域泛化的巨大挑战，并发现只有具有仇恨性质的迷因的文本组成部分能够使现有的多模态分类器在不同领域中泛化，而图像组成部分对特定的训练数据集非常敏感。同时，研究通过黑盒解释，确定了文本模态的重要贡献程度为 83%，而引入迷因图像标题后该贡献程度减少至 52%。另外，对新创建的混淆数据集进行的评估显示，与图像混淆因素相比，文本混淆因素具有更高的性能，平均 ΔF1 为 0.18。

Abstract

This paper delves into the formidable challenge of cross-domain generalization in multimodal hate meme detection, presenting compelling findings. We provide enough pieces of evidence supporting the hypothesis that only the →

cross-domain generalization multimodal hate meme detection textual component hateful memes image component

发现论文，激发创造

仇恨表情包检测的多模态学习

本文提出了一种新的多模态方法，将图像字幕流程融合到恶意模因检测过程中，以提高其有效性，以在 Hateful Memes Detection Challenge 上取得了良好的结果。

Nov, 2020

多模态 Meme 中的仇恨言论检测

本文探讨在 Facebook Meme Challenge 中通过多模型和目标检测、图像说明和情感分析等技术的结合来解决恶意文本与图像的混淆问题以提高分类准确性。

Dec, 2020

通过丰富的字幕样本，提升仇恨模因检测

本文介绍了一种利用图像字幕工具引入自动字幕以模拟图像内容和遮盖文本间的对比，在处理讨论是否具有仇恨色彩的 “违反社交规范” 的表情包挑战中，可以改进单模型和多模型。同时，在处理单模型中，继续在增强和原始字幕对上进行预训练，对于分类准确性有很大的益处。

Sep, 2021

多模态仇恨迷因分类中迷因与词汇的映射

本研究提出了一种名为 ISSUES 的新方法，利用预训练的 CLIP 视觉 - 语言模型和文本反转技术来有效捕捉多模态恶意网络迷因的语义内容，实现了在 Hateful Memes Challenge 和 HarMeme 数据集上最先进的结果。

Oct, 2023

一种用于检测恶意模因的多模态框架

本篇论文旨在针对多种形式的恶意言论，特别是采用 Memes 表达的恶意言论开发一种新的多模态框架，该框架通过交叉验证的集成学习等增强措施，有效提高了已有多模态方法的性能，并在 Facebook 组织的 2020 年恶意 Memes 挑战的第二阶段中获得了 AUROC 评分 80.53，位列第四。

Dec, 2020

多模態仇恨自動偵測演算法評估

该研究探讨了使用语义和多模态上下文来检测隐含和明确的仇恨言论，并且发现使用这种方法可以提高模型性能。同时还针对一批 5000 个多模态内容样本进行了高质量的注释，并将其释放为公开可用的语料库和代码。

Jun, 2021

恶毒模因挑战下一步

本研究探讨了如何解决图片与文本混合的分类问题，尝试使用半监督学习技术生成更多可标注的恶意模因来提升分类准确率，但必须经过人工过滤和筛选。

Dec, 2022

HateProof：恶意 Meme 检测系统真的稳健吗？

社交媒体上传播仇恨的行为越来越多，其中包括使用多模态方式的恶意内容，容易被现有的检测系统所规避。本文通过对现有系统进行外部对抗攻击，检验了其脆弱性，并提出了使用对比学习和基于对抗训练的方法来提高鲁棒性。实验结果表明，使用这两种方法可以在某些攻击下重获性能。

Feb, 2023

Hate-CLIPper：基于 CLIP 特征交叉模态交互的多模式仇恨恶搞分类

本研究提出 Hate-CLIPper 架构，利用对比语言 - 图像预训练 CLIP 编码器生成的图像和文本表示通过特征交互矩阵（FIM）显式建模图像和文本之间的跨模态交互，并采用简单分类器在 Hateful Memes 挑战数据集上实现了 85.8 的 AUROC，优于人类表现。

Oct, 2022

在线模因中的仇恨解构

本文提出了一种名为 DisMultiHate 的新框架，通过对目标实体进行解缠来提高多模式 meme 中令人讨厌内容的分类和可解释性。实验结果表明 DisMultiHate 能够胜过单一模态和多模态基线，这个方法对于多模态令人讨厌内容的分类任务具有很好的解释性。

Aug, 2021