Pro-Cap: 利用冻结的视觉语言模型进行令人讨厌的恶搞表情包检测

MMAug, 2023

Pro-Cap: 利用冻结的视觉语言模型进行令人讨厌的恶搞表情包检测

Pro-Cap: Leveraging a Frozen Vision-Language Model for Hateful Meme Detection

Rui Cao, Ming Shan Hee, Adriel Kuek, Wen-Haw Chong, Roy Ka-Wei Lee...

TL;DR使用 Probing-Based Captioning 方法，通过向一个冻结的 PVLM 提问来生成图像标题，以解决令人讨厌的模因检测任务中的非信息性图像标题的问题，该方法在三个基准测试上验证了其有效性和泛化性。

Abstract

hateful meme detection is a challenging multimodal task that requires comprehension of both vision and language, as well as cross-modal interactions. Recent studies have tried to fine-tune pre-trained vision-language mo

hateful meme detection pre-trained vision-language models captioning approach zero-shot visual question answering pro-cap

发现论文，激发创造

大规模视觉语言模型中的多模态违法言论检测与纠正

本研究探讨了使用视觉语言模型进行仇恨表情包检测和修正任务的能力，并通过实证实验证明了预训练的 LLaVA 模型在这些任务中的有效性和讨论了其优缺点。

Nov, 2023

通过丰富的字幕样本，提升仇恨模因检测

本文介绍了一种利用图像字幕工具引入自动字幕以模拟图像内容和遮盖文本间的对比，在处理讨论是否具有仇恨色彩的 “违反社交规范” 的表情包挑战中，可以改进单模型和多模型。同时，在处理单模型中，继续在增强和原始字幕对上进行预训练，对于分类准确性有很大的益处。

Sep, 2021

零封闭式 VLM 用于仇恨迷因检测：我们到达目标了吗？

这项研究探讨了视觉语言模型在处理令人费解任务（如仇恨迷因检测）中的有效性，并观察到大型视觉语言模型在零样本仇恨迷因检测方面仍然存在脆弱性。

Feb, 2024

仇恨表情包检测的多模态学习

本文提出了一种新的多模态方法，将图像字幕流程融合到恶意模因检测过程中，以提高其有效性，以在 Hateful Memes Detection Challenge 上取得了良好的结果。

Nov, 2020

OSPC: 使用大型语言模型作为催化剂检测有害的网络迷因

通过图像字幕、OCR 和大型语言模型 (LLM) 分析来检测有害的 Internet 恶搞图片，并在新加坡的多元文化和多语言环境中实现对有害 MEME 的综合理解和分类。

Jun, 2024

多模态仇恨表情包分类

提出一种基于简单 Prompt 的预训练语言模型的分类方法，以解决针对具有文化背景的恶意表情包分类任务中，缺乏外部知识库提供文化信息的问题，并在两个公开的恶毒和冒犯表情包数据集上进行实验，其实验结果表明，PromptHate 能够实现高达 90.96 的 AUC，优于同类任务的最佳性能。

Feb, 2023

从文本角度探究跨模态语义对齐能力

本文提出了一种基于图像字幕生成的新型探测方法，用于研究视觉语言预训练模型中跨模态语义对齐的内部机制，发现 VLP 模型对齐的主要是对象和视觉词，忽略了全局语义，还存在固定的句子模式，无视语法和流畅性等问题。

Oct, 2022

借助互补的视觉和语言网络检测恶意表情包

本文主要研究通过使用视觉和语言网络来探索多模式情况下更全面的信息，应用预训练的分类器和目标检测器来获取上下文和 ROI，采用不同的嵌入组件如词嵌入，位置嵌入和语言嵌入，设计了互补的视觉和语言网络模型（CVL）来检测恶意图片并取得了较好的性能。

Dec, 2020

MemeCap: 用于字幕和解释 Memes 的数据集

该研究介绍了一个新的数据集 MemeCap 及可视化模型综合能力的实验，验证了 VL 模型在理解 meme 中的视觉隐喻方面存在的问题。

May, 2023

PromptCap：基于提示的任务感知图像字幕生成

研究了通过引入 PromptCap 这一基于控制生成描述的图像标题模型，用于解决直接使用通用标题生成模型缺乏对视觉细节描述的问题，提高了知识型视觉问答任务的准确性。

Nov, 2022