MMAug, 2023

Pro-Cap: 利用冻结的视觉语言模型进行令人讨厌的恶搞表情包检测

TL;DR使用 Probing-Based Captioning 方法,通过向一个冻结的 PVLM 提问来生成图像标题,以解决令人讨厌的模因检测任务中的非信息性图像标题的问题,该方法在三个基准测试上验证了其有效性和泛化性。