May, 2023
视觉 - 语言模型评述及其在恶意模因挑战中的表现
A Review of Vision-Language Models and their Performance on the Hateful Memes Challenge
Bryan Zhao, Andrew Zhang, Blake Watson, Gillian Kearney, Isaac Dale
TL;DR提高社交媒体内容的自动审查效率,本文探讨了不同的模型并比较其在内容分类上的效果,结果表明,早期融合模型中 CLIP 表现最佳,其 AUROC 值为 70.06。