vision and language models | BriefGPT

关键词vision and language models

搜索结果 - 18

SK-VQA：用于训练上下文增强的多模态 LLM 的大规模合成知识生成
我们生成了一个包含超过 200 万个问题 - 答案对的大型综合多模态数据集 SK-VQA，该数据集需要外部知识来确定最终答案。通过广泛的实验，我们证明我们的合成数据集不仅可以作为一个具有挑战性的基准测试，而且对于调整现有的生成性多模态模型以
PDF6 days ago
CVPR探索视觉语言组合性和识别的光谱
研究了视觉和语言模型领域的复杂关系，特别是在语言理解和细粒度图像与文本对齐方面，探索并评估了现有的 VLMs，在组合性和识别准确性之间的模式和权衡，提出了改进两者能力和基准的策略性努力的必要性。
PDF21 days ago
ColorFoil：大规模视觉与语言模型中色盲调查
利用 Transformer 架构，大型图像和语言（V&L）模型在零样本设置中展现出了令人期待的性能。然而，一些研究指出，在处理复杂的语言学和视觉属性时，这些模型的稳健性不足。在这项工作中，我们引入了一个新颖的 V&L 基准测试 ——Col
PDFa month ago
CVPRQ-GroundCAM: 通过 GradCAM 度量视觉语言模型中的基准化能力
Vision and Language Models (VLMs) have remarkable zero-shot performance, but struggle with compositional scene understan
PDF2 months ago
视觉与语言解码器是否平等使用图像和文本？它们的解释是否自洽？
本研究探讨了视觉和语言模型在生成解释时与提供答案时对模态的依赖程度，并评估了视觉和语言模型解码器在后 - hoc 和 CoT 解释设置中的自我一致性，发现视觉和语言模型的自我一致性不如纯语言模型，对图像的贡献要远小于文本的贡献，尤其是在解释
PDF2 months ago
OpenDlign: 用深度对齐图像提升开放世界三维学习
OpenDlign 是一个新颖的框架，利用点云投影的深度映射生成的深度对齐图像来学习开放世界的 3D 表示，通过丰富多样的颜色和纹理差异以及保持几何和语义一致性，优化了 2D 到 3D 知识迁移，从而显著提高了零样本和少样本 3D 任务的性
PDF2 months ago
用于标题和检索遥感图像的大规模语言模型
本研究提出了 RS-CapRet，一种远程感知任务的视觉和语言方法，主要用于图像字幕生成和文本 - 图像检索。通过对远程感知图像进行对比性语言 - 图像预训练，我们将高性能大型解码器语言模型与适应远程感知图像的图像编码器结合使用。RS-Ca
PDF5 months ago
面向动物身体和面部的语言驱动开放词汇关键点检测
使用图像和语言模型相结合的开放词汇关键点检测方法，通过关联文本提示与相关关键点特征实现任意物种的关键点检测，以实现在零样本情况下超越当前最先进的少样本关键点检测方法，并在 OVKD 上取得了显著的性能改进。
PDF9 months ago
场景细化器：在图像中以形态水平为基础的主题定位
通过对相关词汇、视觉和语言模型、形态学层面、人机模型不匹配以及微妙的语言特征的研究，该论文揭示了视觉和语言模型在捕捉形态学差异时存在的差异和模型的语法倾向。该研究方法不仅可以拓展到其他细微语言特征的测试，还可以进一步提取准确的关键词。
PDF9 months ago
基于基础模型和形式验证的规范驱动视频搜索
使用视觉和语言模型以及形式方法，本研究论文提出了一种自动高效搜索感兴趣视频事件的方法，通过将文本描述转换为有限轨迹的线性时态逻辑（LTLf）并构建视频信息的自动机，然后使用形式方法验证自动机是否满足规范，如果满足则将相关视频片段添加到搜索结
PDF10 months ago
TAP：针对视觉分类任务自适应生成文本训练实例的有针对性提示
在此研究中，我们研究了一种基于文本的视觉与语言模型训练方法，并探索了如何根据下游任务的特点从大型语言模型中采样文本数据，以显著提升视觉识别性能。与先前方法相比，我们展示了达 (交) 领域特定适应的性能提高达 8.4％，精细化识别提高达 8.
PDF10 months ago
ICCV多模基础模型的对抗鲁棒性
本文研究了使用图像中的不可察觉攻击来改变多模态基础模型的标题输出，揭示了恶意内容提供者如何利用此方式伤害诚实用户，并强调了部署的多模态基础模型应采取对抗性攻击的对策。
PDF10 months ago
对比视觉语言细粒度理解中的同模态句式和排名跨模态硬负例
为了解决 Vision and Language Models 对于细致的理解和 fine-grained 任务的挑战，本研究提出一种基于 intra-modal 和 cross-modal rank loss 的策略，该策略不需要额外的注
PDFa year ago
CVPR为视觉和语言模型命名类别的学习
使用可用数据为每个类学习最佳词嵌入作为视觉内容的函数，以此来解决零样本识别对手工类名的高度敏感以及适应新、较小数据集的困难。我们证明，该解决方案可以轻松集成在图像分类和物体检测管道中，在多种情况下产生显著的性能增益，并提供模型偏差和标注误差
PDFa year ago
MM-SHAP：一种性能不可知的度量方法，用于测量视觉和语言模型与任务中的多模式贡献
本研究提出了一种性能无关的多模态得分 MM-SHAP，该得分可以定量地衡量模型在多模态任务中使用个体模式的比例，并可分别应用于比较模型的多模态程度和度量给定任务和数据集的个别模态的贡献，实验结果表明，单模型崩溃可能出现不同程度和不同方向，与
PDF2 years ago
CPL: 计数器事实提示学习用于视觉和语言模型
本文提出了一种新的对视觉和语言模型进行计数事实学习（counterfactual prompt learning，CPL）的方法，该方法同时采用反事实生成和对比学习的方法，在一个联合优化框架中从真实和反事实例子中学习更具有普适性的 prom
PDF2 years ago
ICLR视听模型何时以及为何表现为词袋模型，以及此问题的解决方案是什么？
通过创建 Attribution, Relation, and Order (ARO) 基准来系统性地 evaluated 视觉语言模型 (VLMs) encode 构成信息的能力，其中 ARO 包含 Visual Genome Attri
PDF2 years ago
ECCV利用视觉和语言模型开发目标检测算法的无标签数据
利用视觉与语言模型产生伪标签的方法来实现无标注图像中物体的定位和分类，从而解决大规模获取标注数据的难题，并通过在学习过程中使用这些伪标签，展示了该方法在开放词汇检测和半监督目标检测等任务上的有效性。
PDF2 years ago