- 关于视觉定位在 VQA 中的作用
通过形式化的理论框架 “Visually Grounded Reasoning”,本研究揭示了在 VQA 中视觉定位的重要性,指出基于深度神经网络的 VQA 模型通过捷径学习(shortcut learning)绕过视觉定位的情况,并提出了 - 有选择性地回答视觉问题
近期,大型多模态模型在视觉任务中表现出前所未有的精确性,尤其对于帮助盲人或视障人士提供准确答案至关重要,而模型的校准和不确定性量化对于有选择性地回答问题或请求澄清非常重要。我们对在上下文学习的多模态模型上进行 VQA 校准方法和度量的深入分 - CVPRPTM-VQA: 从各个方面利用多样化的预训练模型来进行高效视频质量评估
本文介绍了一种名为 PTM-VQA 的视频质量评估方法,利用预训练模型从不同方面为 VQA 带来益处,并提出了 ICID 损失和有效的候选模型选择方案,实验证明了该方法的有效性。
- CuMo:多模态 LLM 与协同升级混合专家的扩展
CuMo 是一种在多模态大型语言模型上通过使用混合专家模块来提高模型性能的方法,其在可扩展性和推理成本方面的优势使其在各种可视问答和视觉指令遵循基准上超越了现有的多模态语言模型。
- 增强的视觉问答:卷积的比较分析与文本特征提取
本研究论文比较了复杂的文本模型和简单的局部文本特征模型在 VQA 中的效果,并发现采用复杂的文本编码器并不总是最优的选择。基于这一发现,论文提出了一种改进的模型 ConvGRU,通过引入卷积层增强了问题文本的表示,在 VQA-v2 数据集上 - 学习定位对象提高视觉语言模型的空间推理能力
将大型语言模型(LLM)整合到视觉领域任务中,从而形成视觉 - LLM(V-LLM),在视觉问答(VQA)等视觉语言任务中实现了卓越的性能。通过基于图像坐标的指导微调目标,我们探索了如何为 V-LLM 注入空间意识,包括发现最佳坐标表示、数 - 揭示 VQA 中视觉定位方法的全部潜力
视觉问题回答中的视觉定位方法试图通过增强模型对问题相关视觉信息的依赖性来提高视觉问题回答的性能。然而,在处理大规模视觉问题回答中常见的不完美图像表示时,这种对应视觉信息的假设是存在缺陷的,其与预期的真实内容之间的偏差导致了这些方法的潜在优势 - 通过一个大型语言模型的一系列问答,将目前基于合成问题的视觉问答普及到人工书写的问题
为了解决视觉问答中复杂人类问题的性能问题,提出了一种名为 CoQAH 的新方法,利用大语言模型和基于合成数据训练的 VQA 模型之间的一系列 QA 交互来推理和推导人类问题的逻辑答案,并在 3D 渲染和胸部 X 光图像的两种人类问题类型的数 - AAAI通过仅文本训练挖掘细粒度的图像 - 文本对齐用于零样本字幕生成
通过减少视觉和文本之间的模态差异,我们提出了一种零摄影机图片字幕框架,通过仅使用文本进行训练和引入局部图像区域特征聚合、噪声注入和 CLIP 排序策略来提高字幕性能,并证明其在 MSCOCO、Flickr30k 和 VQAV2 等数据集上具 - 上下文感知的目的明确视觉问答
通过引入 Context-VQA 数据集,我们发现上下文会影响问题的类型,对于满足人们的需求,尤其是在可访问性设置中,VQA 模型应该具有上下文敏感性。
- 图像上叠加文本的视觉问答(VQA)
对于医学图像上的叠加文本注释,本研究探讨其对视觉问答(VQA)任务的影响,并发现这种文本元信息的添加不会严重降低 VQA 性能指标,从而验证了在使用 AI 技术进行 VQA 任务时,在医学图像上叠加文本的做法的可行性。这项研究在提升对 VQ - 揭示视觉问答中交叉模态偏见:基于可能世界的因果视角 VQA 分析
本文介绍了一种同时减少 VQA 系统中视觉和语言偏差的方法,并推出了一种解释策略,最终在 VQA-CP v2 数据集上取得了比现有方法更好的结果。
- 联合学习问答器和密集字幕生成器强化视觉语言预训练
本文提出一种名为 Joint QA and DC Generation (JADE) 的新方法,利用预训练的多模态模型及易于爬取的图像 - 文本对生成和过滤大规模的视觉问答和密集字幕数据集。我们将该方法应用于概念字幕(CC3M)数据集,生成 - 基于 SPSA 梯度的量子机器学习优化器实证比较
本文介绍了一种结合了近似梯度和最先进的基于梯度的优化算法的新方法,该方法在简单回归任务中的收敛速度和绝对误差方面超越了标准 SPSA 和参数偏移规则,而且在考虑了 shot- 和硬件噪声之后,优于 SPSA 和随机梯度下降方法。
- CVPRMixPHM: 针对低资源视觉问答的冗余感知、参数高效调整
本文提出了 MixPHM,这是一种重复感知的参数高效调整方法,用于在低资源 VQA 中优于完全微调。通过在混合型权威方式中实现的多个 PHM 专家来实现 MixPHM,同时重新参数化专家权重以在低秩子空间中分享权重。我们还提出了冗余正则化, - 系统性归纳的简要调查
本研究系统地总结了机器学习中的系统化推广方法,并从经典派和联结派等不同角度介绍了其相关信息。我们重点讨论了不同类型的联结派及其如何处理推广问题,并探讨了在语言、视觉和 VQA 等领域中的应用。此外,我们还讨论了相关的变量绑定和因果问题,并简 - ECCV重新思考数据增强对于强健的视觉问答的影响
提出了一种基于知识蒸馏的数据增强方法 KDDAug,通过放宽合理图像 - 问题匹配的要求,并设计了一个知识蒸馏(KD)策略生成所有生成的图像 - 问题对的伪答案,从而增强图像的数据集,以提高视觉问答(VQA)模型的泛化性能。
- IJCAI基于声明的提示调整技术用于视觉问答
该论文提出了一种名为 DPT 的创新型视觉语言模型微调范式,它通过文本调整和任务调整重新定义视觉问题的目标函数形式来共同优化 VQA 模型的预训练和微调目标,以提高预训练 VL 模型对于下游任务的有效适应性,实验结果表明,DPT 在准确性方 - ACLVQA 可能只需要图片标题
本文提出了使用图像 - 标题注释与文本问题生成的神经模型自动导出 VQA 示例的方法,从而改进了 VQA 数据的质量和量,并在零样本准确性方面取得了双位数的业界领先水平。
- CVPRSimVQA: 探索模拟环境进行视觉问答
采用合成数据生成技术,利用 3D 仿真平台生成了具备多样性的数据,针对现实世界 VQA 基准测试,量化了合成数据的影响并提出了 F-SWAP 方法,以提高现有真实图像数据集的 VQA 准确性。