vision language model | BriefGPT

关键词vision language model

搜索结果 - 10

CarLLaVA: 基于视觉和语言模型的无需传感器驱动闭环驾驶
CarLLaVA 是一种用于自主驾驶的视觉语言模型，通过 LLaMA 架构和 LLaVA VLM 的视觉编码器实现闭环驾驶性能的最新进展，无需复杂或昂贵的标签，并通过行驶输出展示了预测语言评论的初步结果。
PDF16 days ago
大型视觉语言模型的语境情感识别
在这篇研究论文中，我们使用最近的大型视觉语言模型来探讨两种主要方法：图像字幕生成与仅使用语言的 LLM，以及零样本和微调设置下的视觉语言模型。我们在 Emotions in Context（EMOTIC）数据集上评估这些方法，并展示出即使在
PDF2 months ago
利用大型语言模型和视觉语言模型增强交互式图像检索的查询重写
我们提出了一种互动式图像检索系统，结合了视觉语言模型和大型语言模型，通过用户反馈迭代改进查询，并利用无噪声的查询扩展提高检索准确性，在评估中获得了 10% 的召回率改善。
PDF2 months ago
使用 VLM 进行零 - shot 视频问答：图像栅格能表达视频的价值
该研究提出了一种简洁而新颖的策略，利用图像网格的形式，将视频转化为单个复合图像，从而实现了对视频进行直接的高性能视觉语言模型的应用，无需任何视频数据训练，并在十个零样本视频问答基准中的九个基准中超越现有方法。
PDF3 months ago
ScreenAgent：基于视觉语言模型的计算机控制代理
本文构建了一个用于视觉语言模型（VLM）代理与真实计算机屏幕交互的环境，在该环境中，代理可以观察屏幕截图并通过输出鼠标和键盘动作操纵图形用户界面（GUI）。我们还设计了一个自动控制流程，包括规划、执行和反思阶段，指导代理不断与环境交互并完成
PDF5 months ago
CLIP-Loc：面向基于物体的地图的多模式地标关联全局定位
通过使用多模态数据关联方法，结合基于对象的地图和相机图像，本文描述了一种全局定位的方法。我们尝试使用 Vision Language Model (VLM)，通过自然语言描述标记地标，并基于图像观察的概念相似性提取对应关系，从而提高了全局定
PDF5 months ago
DME-Driver: 自主驾驶中融合人类决策逻辑与 3D 场景感知
DME-Driver 是一种新的自动驾驶系统，通过利用强大的视觉语言模型作为决策者和以规划导向的感知模型作为控制信号生成器，以提高自动驾驶系统的性能和可靠性。
PDF6 months ago
GPT-4V (ision) 用于机器人：来自人类演示的多模态任务规划
我们介绍了一种通过整合人类动作观察来增强通用视觉语言模型 GPT-4V (ision) 的流水线，以促进机器人操纵。该系统分析人类执行任务的视频，并创建包含可支配见解的可执行机器人程序。实验表明，该方法在实现从人类示范中的真实机器人操作方面
PDF7 months ago
通过自然语言反馈指导大型视觉语言模型与人类进行对齐和交互
我们提出了 DRESS，一个大型视觉语言模型（LVLM），通过解决当前 LVLM 的两个关键限制，创新地利用来自大型语言模型的自然语言反馈（NLF）来增强其对齐和交互。
PDF7 months ago
PaLI-3 视觉语言模型：更小、更快、更强
PaLI-3 是一个较小、更快、更强的视觉语言模型（VLM），相比于大十倍的类似模型具有有利的比较性能。与使用分类目标进行预训练的 Vision Transformer（ViT）模型相比，SigLIP 预训练模型的 PaLI 在标准图像分类
PDF9 months ago