释放大型语言模型的潜力:洪水灾害场景下的无监督视觉问答(Zero-shot VQA)
本论文提出了一种名为洪水灾害 VQA-TSP 的零样本视觉问答模型,通过两阶段提示生成思考过程并使用视觉上下文来减轻思考过程中的幻觉问题,实验结果显示我们的方法在洪水灾害场景中超过了现有零样本 VQA 模型的性能,为改进基于 CoT 的零样本 VQA 性能提供了研究基础。
Dec, 2023
本文提出了一种评估 VQA 方法能力的新协议,该方法旨在衡量其执行零摄影技术需求 (Zero-Shot VQA) 的能力,并在此过程中凸显了当前方法的一些实际缺陷,其中一些缺陷被当前数据集中的偏见掩盖。通过在预训练单词嵌入和物体分类器等方面进行实验,我们提出并评估了多种实现零摄影技术需求的策略,并在标准 VQA 评估设置中实现了最先进的性能。
Nov, 2016
本文研究了基于视觉问答(VQA)任务中基础模型的零 - shot 能力。我们提出了一种自适应多智能体系统,称为多智能体 VQA,通过使用专门的智能体作为工具,克服了基础模型在目标检测和计数方面的局限性。与现有方法不同的是,我们的研究重点在于系统在特定 VQA 数据集上不进行微调的性能,使其在开放世界中更实用和稳健。我们呈现了零 - shot 场景下的初步实验结果,并突出了一些失败案例,为未来的研究提供了新的方向。
Mar, 2024
提出了 Img2Prompt 模块,它可以提供可以描述图像内容和自构建问题答案对的提示,并且能够帮助 LLMs 执行无需端到端训练的零射击 VQA 任务。
Dec, 2022
通过生成推理问题提示,为零样本情景中的大型语言模型在零样本视觉问答任务中的问题回答问题选择和生成保持完整性、语义合理性和句法不变性,从而显著提高了大型语言模型在零样本情景中的性能。
Nov, 2023
该论文训练了一个视觉问答系统,使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统,该数据集使用模板自动生成,模型的最高准确性超过了人类专家水平。
Aug, 2022
本文介绍了 OpenViVQA:首个包含越南语开放式答案的大规模 VQA 数据集,包括 11,000 + 图像和 37,000+ 问答对,并提出了三个融合图像和答案信息的方法(FST,QuMLAG 和 MLPAG),并使用这些融合的特征构建答案,旨在促进研究社区针对越南语这类低资源语言开发出更广义的算法,结果与 SOTA 模型竞争力相当。
May, 2023
本研究提出了一种使用知识图谱和基于掩码的学习机制来更好地结合外部知识的零样本 VQA 算法,并在 F-VQA 数据集上提出了新的基于答案的零样本 VQA 切分。实验表明,我们的方法在处理未见过的答案方面可以实现最先进的性能,并显著增强现有的端到端模型在正常的 F-VQA 任务上的表现。
Jul, 2021
通过在视觉问题回答(VQA)过程中利用图像描述作为中介步骤,建立零样本设置,探索了零样本 VQA 的影响。比较了最先进的图像描述模型对于不同问题类型的 VQA 性能在结构和语义上的影响,并在 VQA 过程中提出了一种简单高效的问题驱动图像描述方法,通过提取问题关键词、为每个图像 - 问题对生成描述,并将问题驱动的描述传输到大型语言模型中。研究发现利用图像描述和大型语言模型的能力,在零样本设置下能够实现竞争性的 GQA 性能。
Apr, 2024
本文介绍了一种基于冻结的双向语言模型的零样本视频问答方法,它使用轻量级的可训练模块将可视化输入与冻结的双向语言模型相结合,通过屏蔽的语言模型进行零样本视频问答推理,相较于目前现有的方法,在包括 LSMDC-FiB、iVQA、MSRVTT-QA、MSVD-QA、ActivityNet-QA、TGIF-FrameQA、How2QA 和 TVQA 等各种数据集上,取得了显著的优势,同时在少样本和完全监督的情况下也表现出了有竞争力的结果。
Jun, 2022