ACLFeb, 2024

文本还是图像?对于仇恨迷因检测模型的跨领域泛化能力,哪个更重要?

TL;DR通过相关证据,该研究论文探讨了多模态仇恨迷因检测中跨领域泛化的巨大挑战,并发现只有具有仇恨性质的迷因的文本组成部分能够使现有的多模态分类器在不同领域中泛化,而图像组成部分对特定的训练数据集非常敏感。同时,研究通过黑盒解释,确定了文本模态的重要贡献程度为 83%,而引入迷因图像标题后该贡献程度减少至 52%。另外,对新创建的混淆数据集进行的评估显示,与图像混淆因素相比,文本混淆因素具有更高的性能,平均 ΔF1 为 0.18。