zero-shot visual question answering | BriefGPT

关键词zero-shot visual question answering

搜索结果 - 4

多模态理性混合：视觉问题回答的多模式推理混合
提出了一种名为 “Mixture of Rationales (MoR)” 的新型多模态推理方法，通过混合多个推理证据来解决零样本视觉问答问题，并结合 “Vision-and-Language Pre-trained Models (VLP
PDFa month ago
通过大型语言模型和推理问题提示改进零样本视觉问答
通过生成推理问题提示，为零样本情景中的大型语言模型在零样本视觉问答任务中的问题回答问题选择和生成保持完整性、语义合理性和句法不变性，从而显著提高了大型语言模型在零样本情景中的性能。
PDF8 months ago
MMPro-Cap: 利用冻结的视觉语言模型进行令人讨厌的恶搞表情包检测
使用 Probing-Based Captioning 方法，通过向一个冻结的 PVLM 提问来生成图像标题，以解决令人讨厌的模因检测任务中的非信息性图像标题的问题，该方法在三个基准测试上验证了其有效性和泛化性。
PDFa year ago
ACL基于预训练模型的模块化零样本视觉问答
本文探讨如何利用预训练模型来支持零样本视觉问答，通过模块化的零样本网络将问题分解成子理性步骤，并将子任务分配给适当的预训练模型以实现更好的可解释性。实验表明，我们的方法比其他基线方法更具有效性和可解释性。
PDFa year ago