- 医疗报告生成和视觉问答的视觉语言模型综述
医学视觉语言模型结合了计算机视觉和自然语言处理,用于分析视觉和文本式医学数据。我们的论文回顾了最近在开发医学领域专用的视觉语言模型方面的进展,重点关注医学报告生成和视觉问答模型。我们提供了自然语言处理和计算机视觉的背景,解释了如何将两个领域 - 基于知识库的图像视觉常识发现
本研究通过借鉴自然语言处理中常识知识库 ConceptNet 的方法,系统定义了视觉常识的各种类型,并提出了一种新的任务 - 视觉常识发现(VCD),旨在提取图像中不同对象包含的细粒度常识。通过构建包括超过 10 万张图像和 1400 万个 - CommVQA: 在交际语境中定位视觉问题回答
当前的视觉问答(VQA)模型倾向于在孤立的图像 - 问题对上进行训练和评估。然而,人们提出的问题取决于他们的信息需求和对图像内容的先前知识。为了评估如何将图像置于自然语境中以形成视觉问题,我们引入了 CommVQA,这个 VQA 数据集包括 - 视觉 - 语言模型的不确定性感知评估
提出了一种利用置信度量化的方式评估视觉 - 语言模型,研究发现模型的不确定性与准确性存在相关性。
- AAAIVQAttack:基于预训练模型的可传递视觉问答对抗攻击
使用预训练的多模态源模型生成对抗性图像 - 文本对来攻击目标 VQA 模型,并提出了一种新的 VQAttack 模型,通过设计的模块迭代生成图像和文本扰动,实验证明在转移攻击环境下,与现有方法相比,该模型具有有效性。
- II-MMR: 识别和改进多模式多跳推理在视觉问答中
本文介绍了一种新的方法 II-MMR,用于在视觉和语言(V&L)中进行多模多跳推理,通过识别和改进 VQA 中的不同推理案例。II-MMR 通过使用两种新的语言提示:(i)答案预测引导的 Chain-of-Thought(CoT)提示,或( - ACL通过一个新的平行图像数据集研究大型视觉语言模型中的性别和种族偏见
通过查询大规模视觉语言模型,我们观察到在输入图像中人物的性别和种族上存在显著差异,针对此问题我们提出了新的数据集 PAIRS (每日场景的平行图像),并研究了大规模视觉语言模型中的性别和种族偏见。
- 说服性的视觉问答推理理由
通过对图像和问题对的预测答案生成视觉和文本理由,从而在零样本评估设置中实现了竞争性性能。
- LCVO:一种高效的无预训练视觉问答定位框架
使用 LCVO 模块化方法实现视觉 - 语言多模态领域中的视觉问答(VQA)定位任务,该方法通过一个冻结的大型语言模型(LLM)作为中间介质,在现成的 VQA 模型和现成的开放词汇物体检测(OVD)模型之间转换和传递文本信息,并依靠设计的提 - 有效课程学习中改进数据增强以提升鲁棒视觉问答
通过引入有效课程学习策略(ECL)来提高基于数据增强的视觉问答(VQA)方法,以缓解语言偏见,并通过生成额外的训练样本超出原始样本帮助消除偏见。与整个增强数据集的训练相比,我们的 ECL 策略可以通过使用更少的训练样本来进一步提高 VQA - 放射学中的医学图像自由形式问答
医学领域中的视觉问答(VQA)面临独特的、跨学科的挑战,结合了计算机视觉、自然语言处理和知识表示等领域。本研究针对这一研究领域的空白,探讨了放射学图像的有效表示和多模态表示的联合学习,超越了现有方法。我们创新性地增强了 SLAKE 数据集, - SpatialVLM:赋予视觉语言模型空间推理能力
通过在互联网规模的空间推理数据上训练 Visual Language Model(VLM),我们显著增强了其在定量和定性空间 VQA 方面的能力,并实现了链式思维空间推理和机器人学等新颖应用。
- 通过挖掘问答提示发现丰富的视觉线索,为需要多样化世界知识的 VQA 提供支持
我们提出了一种名为 Q&A Prompts 的方法,该方法通过挖掘图像中的问题 - 回答对来发现丰富的视觉线索,并将其作为提示发送给预训练的多模态大型语言模型,以在需要涉及不同世界知识的具有挑战性的视觉问题回答数据集上实现了显著的改进。
- Veagle: 多模态表征学习的进展
提出了一种名为 Veagle 的新方法,通过在现有模型中增强多模态能力,利用动态机制将编码的视觉信息直接投射到语言模型中,从而在视觉问题回答和图像理解等任务中表现出具有显著优势的 5-6% 的改进。
- 揭示 VQA 中视觉定位方法的全部潜力
视觉问题回答中的视觉定位方法试图通过增强模型对问题相关视觉信息的依赖性来提高视觉问题回答的性能。然而,在处理大规模视觉问题回答中常见的不完美图像表示时,这种对应视觉信息的假设是存在缺陷的,其与预期的真实内容之间的偏差导致了这些方法的潜在优势 - 通过一个大型语言模型的一系列问答,将目前基于合成问题的视觉问答普及到人工书写的问题
为了解决视觉问答中复杂人类问题的性能问题,提出了一种名为 CoQAH 的新方法,利用大语言模型和基于合成数据训练的 VQA 模型之间的一系列 QA 交互来推理和推导人类问题的逻辑答案,并在 3D 渲染和胸部 X 光图像的两种人类问题类型的数 - 基于知识的视觉问答的跨模态检索
基于知识的视觉问答(VQA)涉及使用多模态知识库的信息检索,命名实体的多样化视觉表现使其难以识别,我们认为跨模态检索可能有助于弥合实体与其描述之间的语义差距,对单模态检索产生互补作用,通过对最近的 ViQuAE、InfoSeek 和 Enc - PeFoMed: 多模态大语言模型的参数高效微调在医学视觉问答中的应用
这篇论文提出了一个参数高效的框架,专门用于调整针对 Med-VQA 应用的多模式大型语言模型,并通过公共基准数据集进行了实证验证,结果显示我们的模型在封闭问题上的整体准确率达到了 81.9%,并且在准确率上超过 GPT-4v 模型 26%的 - 教育证据显示 GPT-4V 战胜 Gemini Pro
本研究通过使用视觉问答(VQA)技术比较了 Gemini Pro 和 GPT-4V 在教育环境下的分类表现,研究了这两个模型在科学教育中阅读基于文本的评分标准并自动评分学生绘制模型的能力。研究发现,GPT-4V 在评分准确性和二次加权 Ka - 实现统一的多模态推理框架
利用链式思维和视觉问答技术,通过评估文本嵌入方法和视觉嵌入方法的有效性,研究如何提高深度学习模型在解决多项选择问题方面的准确性,实验结果显示这些方法在增强推理和问答能力方面具有潜力。