visual-language models | BriefGPT

关键词visual-language models

搜索结果 - 21

在未知的动态环境中使用三维语义地图进行开放词汇的移动操作
在未知和动态环境中，建立并理解空间语义上下文的移动机器人操作任务通过零样本检测和基于视觉 - 语言模型的密集三维实体重建，利用大型语言模型进行空间区域抽象和在线规划，并通过演示在实际机器人实验中取得较高的导航和任务成功率以及基线模型相比更好
PDF8 days ago
从冗余到相关性：增强多模态大型语言模型的可解释性
通过分析信息流的动态流动，我们发现信息流似乎在浅层中汇聚，进一步的研究揭示了浅层中图像令牌的冗余，因此引入了一个截断策略来聚合这些浅层内的图像令牌，该方法通过多个模型上的实验证实，并获得了一致的改进。
PDFa month ago
SEP：自我增强的视觉语言模型提示调整
基于 Context Optimization (CoOp) 的 Prompt tuning 方式可通过推断附加可学习的提示符令牌来有效地调整视觉 - 语言模型（VLMs）以适应下游任务。然而，这些令牌由于与预训练的令牌无关且无法捕捉特定于
PDFa month ago
探索大型基础模型在开放词汇 HOI 检测中的潜力
通过引入条件多级解码和细粒度语义增强（CMD-SE）的新型端到端开放词汇 HOI 检测框架，利用视觉 - 语言模型 (VLMs)，本研究模拟不同距离的人 - 物对的不同特征图级别，进一步利用大型语言模型（LLMs）生成人体部位状态的描述，以
PDF3 months ago
ICLROpenNeRF：使用像素级特征和渲染新视图的开放式 3D 神经场景分割
OpenNeRF 是一种在视觉 - 语言模型中自然地进行操作的方法，通过使用像素级的 VLM 特征，可以在不需要额外的 DINO 规范化的情况下实现更简化的架构，并在 3D 点云分割上优于近期的开放词汇方法，如 LERF 和 OpenSce
PDF3 months ago
OpenGraph: 大规模户外环境中的开放词汇层次化三维图谱表示
本文提出了 OpenGraph，一种适用于大规模户外环境的开放词汇层次图结构表示，该结构兼具图像和文字语义，并通过 2D 模型提取实例和标题，以增强文本推理能力，并通过将图像投影到 LiDAR 点云上实现了 3D 增量全景映射和特征嵌入，最
PDF4 months ago
文本知识的重要性：跨模态共教带来的一般化视觉类别发现
通过使用强大的视觉 - 语言模型，本文提出了一个两阶段的 TextGCD 框架，通过检索式文本生成和跨模态共同教学来实现多模态的广义类别发现，并设计了自适应类别对齐策略以及软投票机制以整合多模态线索。实验证明我们的方法在八个数据集上具有较大
PDF4 months ago
CVPR通过上下文残差学习与少样本提示实现通用异常检测
使用少样本学习的正常图像为提示，在不同数据集上训练一个综合上下文残差学习模型（InCTRL）进行广义异常检测，以区分异常和正常样本之间的残差来实现跨不同领域的泛化能力。
PDF4 months ago
基于提示的无监督领域自适应的分布对齐
在本文中，我们首先实验性地证明了无监督训练的视觉语言模型可以显著减少源域和目标域之间的分布差异，从而改善无监督域自适应的性能。然而，直接在下游无监督域自适应任务中部署这些模型的一个重要挑战是及时的工程技术，需要对源域和目标域的领域知识进行对
PDF7 months ago
EZ-CLIP：高效零样本视频行为识别
EZ-CLIP 是对 CLIP 的简单高效改进，通过引入时序视觉提示和新的学习目标，实现了在视频领域的零样本学习和基于视频动作识别的高效训练。
PDF7 months ago
图像搜索的当代艺术：通过视觉语言模型进行迭代用户意图扩展
利用视觉语言模型的用户意图扩展框架改进了图像搜索引擎，提供更准确和满意的搜索结果。该框架包括两个阶段的过程，即解析阶段和逻辑组合阶段，并允许用户进行灵活的上下文交互以进一步指定或调整搜索意图。研究结果表明，该框架显著提高了用户的图像搜索体验
PDF7 months ago
TCP: 面向视觉语言模型的基于文本的类别感知启发式调整
通过引入文本类知识嵌入和基于类别的文本提示调整，实现了一种动态类别感知分类器，以提高对未见样本的区分能力并取得优越的性能。
PDF7 months ago
基于文本提示的空间协变图像配准
textSCF 是一种新方法，通过整合空间协变滤波器和由视觉语言模型编码的解剖学区域的文本提示，从而在形变图像配准方面实现了良好的性能。它通过捕捉解剖区域之间的上下文相互作用，提供了令人印象深刻的区域间可转移性，并能在配准过程中保留结构性不
PDF7 months ago
VLIS: 单模态语言模型指导多模态语言生成
多模态语言生成领域中，我们引入了 VLIS，这是一个新的框架，将视觉语言模型的视觉调节能力与纯文本语言模型的语言理解相结合，通过提取图像和文本之间的点对互信息，并将其作为重要性抽样权重来调整基于文本的模型的标记生成概率，从而在共识理解和复杂
PDF9 months ago
视频 CSR: 复杂视频摘要生成用于视觉 - 语言模型
我们提出了一个新的任务和人类标注的数据集，用于评估视觉语言模型对于生成视频剪辑的标题和摘要的能力，该数据集包含了 4800 个 YouTube 视频剪辑，时长在 20-60 秒之间，涵盖了广泛的主题和兴趣，对于视觉和听觉内容都进行了基于摘要
PDF9 months ago
视觉分布校准和跨模态分布对齐的小样本学习
使用 Selective Attack 模块和交叉模态分布对齐模块加上样本增强策略来解决 vision-language models 下 few-shot 学习中的关键问题，能够有效地使得视觉和语言特征分布一致，并在 11 个数据集上稳定
PDFa year ago
CLIP-Count: 基于文本引导的零样本物体计数
本研究提出了一种新的技术 CLIP-Count，利用预处理好的图像与文本对齐知识，在零样本的情况下，估计开放词汇对象的密度图，用于类无关物体计数，并在 FSC-147、CARPK 和 ShanghaiTech 人群计数数据集上进行了广泛的
PDFa year ago
Anything-3D: 面向野外的单视角任意物体重建
本文提出了 Anything-3D 框架，采用了一系列视觉语言模型和 Segment-Anything 对象分割模型来实现从单个 RGB 图像到 3D 重建的任务，并通过实验验证了其有效性和可靠性。
PDFa year ago
探究大型视觉语言模型的概念理解
本文介绍了一种新的框架，用于探究和提升视觉语言模型的关系、组合和上下文理解。我们提出了一个基准数据集来检测内容理解的三个方面。我们实验了 5 种流行的模型，并发现它们大多数难以展示出概念理解。然而，我们发现交叉注意力可以帮助学习概念理解，并
PDFa year ago
机器人导航的视觉语言地图
本研究提出了 VLMaps，一种将 3D 物理世界重建与预训练的视觉语言特征直接融合的空间地图表示，其能够通过大型语言模型将自然语言命令直接转化为空间导航目标。VLMaps 能够在不需要额外标注数据的情况下自主构建，并且可以与多种类型的机器
PDF2 years ago