EMNLPOct, 2022

Hate-CLIPper:基于 CLIP 特征交叉模态交互的多模式仇恨恶搞分类

TL;DR本研究提出 Hate-CLIPper 架构,利用对比语言 - 图像预训练 CLIP 编码器生成的图像和文本表示通过特征交互矩阵(FIM)显式建模图像和文本之间的跨模态交互,并采用简单分类器在 Hateful Memes 挑战数据集上实现了 85.8 的 AUROC,优于人类表现。