vlms | BriefGPT - AI 论文速递

关键词vlms

搜索结果 - 35

ICAL: 将轨迹转化为可行动洞见的多模态智能体的持续学习
我们提出了一种名为 In-Context Abstraction Learning（ICAL）的方法，通过从次优演示和人类反馈中构建多模态体验洞察记忆，将 VLMs 将轨迹抽象为一个通用程序，显著提高了检索增强的 LLM 和 VLM 代理的
PDF14 days ago
通过对目标令牌进行上下文注入，增强视觉语言模型中的跨提示可转移性
通过使用梯度方法对视觉和文本上下文进行干扰，Contextual-Injection Attack（CIA）可以将目标标记注入视觉和文本环境，从而改善目标标记的概率分布，进而增强对抗图像的跨提示可迁移性，对于视觉 - 语言模型（VLMs）中
PDF15 days ago
RoboPoint：机器人的空间可行性预测的视觉语言模型
我们介绍了一个自动的合成数据生成流水线，用于调整机器人领域和需求中的视觉语言模型，并通过该流水线训练了 RoboPoint，该模型可以根据语言指令预测图像关键点的可行性。与其他方法相比，我们的方法无需真实世界数据收集或人类示范，使得它在适应
PDF19 days ago
CVPR探索视觉语言组合性和识别的光谱
研究了视觉和语言模型领域的复杂关系，特别是在语言理解和细粒度图像与文本对齐方面，探索并评估了现有的 VLMs，在组合性和识别准确性之间的模式和权衡，提出了改进两者能力和基准的策略性努力的必要性。
PDF21 days ago
MiniGPT - 反设计：利用 MiniGPT-4 预测图像调整
通过将视觉 - 语言模型（VLMs）与大型语言模型（LLMs）集成，近期已取得重要进展。本文扩展和优化了 MiniGPT-4 以进行逆向设计任务，并且实验证明了通用的 VLMs（特别是 MiniGPT-4）在复杂任务（如逆向设计）方面的可扩
PDFa month ago
视觉对齐中的图像识别：优先考虑视觉相似性
通过对比图像输入，对每个文本标记的预测值差异提供了强大的视觉关联指导，我们提出了对每个文本标记赋予不同贡献的方法，名为 Contrastive ALignment (CAL)。我们的实验证明，CAL 方法在各种基准数据集上始终改善了不同类型
PDFa month ago
隐私感知的视觉语言模型
本文介绍了一项关于 Visual Language Models（VLMs）处理隐私敏感信息的研究，引入了一个新的基准 PrivBench，并在其中评估了 10 个最先进的 VLMs。研究结果表明，VLMs 对隐私的理解普遍有限，因此提出了
PDFa month ago
DreamScene4D: 从单目视频生成动态多物体场景
DreamScene4D 是一种能够从野外单眼视频中生成多个物体的三维动态场景的方法，通过设计 “分解 - 重组” 方案，将视频场景及每个物体的三维运动进行分解，并使用开放词汇遮罩跟踪和适应性图像扩散模型对视频中的物体和背景进行分割、追踪和
PDF2 months ago
构建视觉 - 语言模型时的要点
基于大语言模型和视觉变换的视觉语言模型（VLMs）的增长兴趣，我们观察到在 VLMs 设计中往往存在未经支持的决策，这使得很难确定哪些选择能够提高模型性能，为了解决这个问题，我们进行了大量关于预训练模型、架构选择、数据和训练方法的实验，基于
PDF2 months ago
超越人类视角：大型视觉语言模型在显微镜图像分析中的作用
在这项研究中，我们对 ChatGPT、LLaVA、Gemini 和 SAM 进行了分类、分割、计数和 VQA 任务，发现 ChatGPT 和 Gemini 能够令人印象深刻地理解显微镜图像中的视觉特征，而 SAM 则在一般情况下具备分离伪影
PDF2 months ago
通过多知识表示优化视觉语言模型的提示学习
Context Optimization with Multi-Knowledge Representation (CoKnow) enhances Prompt Learning for VLMs by addressing the la
PDF3 months ago
RESSA：通过稀疏跨模态适应修复稀疏视觉语言模型
通过罕见模型剪枝和稀疏模型修复解决了资源受限场景下部署大规模 Vision-Language Models 的挑战，提出了一种稀疏跨模态适应方法 (RESSA)，其中包括稀疏 LoRA 技术和交互模态微调，实现了显著的性能增强。
PDF3 months ago
CVPRViTamin：设计可扩展的视觉模型在视觉语言时代
该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议，其中引入了一种新的视觉模型 ViTamin，该模型在零样本任务和模型规模扩展等方面表现出色。
PDF3 months ago
Mini-Gemini: 挖掘多模视觉语言模型的潜力
通过引入 Mini-Gemini 框架，本论文旨在提升多模视觉语言模型（VLMs）的性能，尤其关注高分辨率视觉标记、高质量数据和 VLM 引导生成等方面，进一步挖掘了 VLMs 的潜力，使其能够同时支持图像理解、推理和生成。
PDF3 months ago
CFPL-FAS: 无类别提示学习的通用人脸反欺骗
利用大规模的 VLMs（如 CLIP）利用文本特征动态调整分类器权重，通过使用两个轻量级 Transformer（CQF 和 SQF）来学习基于内容和样式特征的不同语义提示，通过 Prompt Modulation（PM）设计，将学习到的文
PDF3 months ago
面向视觉与语言模型的多模态上下文学习
通过对一些最先进的 VLM（Visual Language Model）进行分析，我们发现它们在执行 ICL（In-Context Learning）指令时存在一定的不足。为了验证这个猜想，我们提出了一种简单但令人惊讶地有效的策略，通过扩展
PDF3 months ago
ACL基于图表的推理：从 LLMs 向 VLMs 的能力转移
在 VLMs 中，我们提出了一种从 LLMs 转移能力的技术，通过改善图表表示和构建比原始训练集大 20 倍的数据集，合成图表的推理痕迹，最后使用多任务损失对模型进行微调，取得了令人满意的性能。
PDF3 months ago
ICLR图像胜于千言：视觉语言模型间的提示对抗传递
提出了一种名为 CroPA 的方法，通过使用可学习的提示来对抗误导性的对手图片，从而显著提高了对不同提示的对手样本的传递能力。
PDF4 months ago
利用 WebSight 数据集解锁网页截图转换为 HTML 代码
使用视觉 - 语言模型（VLMs）在 Web 开发中提供截屏或草图界面，能够自动生成相应的 HTML 代码，这项研究介绍了 WebSight 合成数据集和基于该数据集进行优化的 VLM，在将网页截屏转换为功能性 HTML 代码方面表现出良好
PDF4 months ago
ICLR智能视觉演绎推理有多远？
近期，Vision-Language Models (VLMs) 取得了惊人的进展，但在基于视觉的演绎推理方面仍存在尚未发现的局限性。采用 Raven's Progressive Matrices (RPMs) 测试了几种热门的 VLMs
PDF4 months ago