- 指导零样本学习的提示生成
通过进一步采用指令跟随技术来提取具有综合转移知识的指导性视觉提示,以解决固定学习提示在已知领域上过分强调训练期间观察到的主要视觉特征的问题,并通过引导学习的指令提示来实现对视觉表示的反向校正,从而弥补缺失的视觉细节并消除跨模态差异,为未知领 - IJCAI为什么只用文本:用多模态提示增强视觉与语言导航
Vision-and-Language Navigation with Multi-modal Prompts (VLN-MP) integrates natural language and images in instructions, - ICML面向高效视觉 - 语言微调的记忆空间视觉提示
当前关于高效构建大型视觉语言模型的解决方案采用两步骤范式:将预训练视觉编码器的输出投射到预训练语言模型的输入空间作为视觉提示,然后通过端到端参数高效调优(PEFT)将模型转移到下游视觉语言任务。然而,这一范式仍然存在低效性,因为它显著增加了 - CVPR广义少样本分割的视觉引导:多尺度方法
通过使用学习到的视觉提示,我们的工作研究了在少样本情况下,通过对 Transformer 解码器进行提示,来提高普适少样本分割(GFSS)任务的效果。我们提出了一种利用少量样本学习视觉提示的方法,通过这些学习到的视觉提示,我们可以对多尺度 - T-Rex2:通过文本 - 视觉提示协同实现通用物体检测
我们提出了 T-Rex2,这是一个高度实用的模型,用于开放集目标检测,通过对比学习,T-Rex2 结合了文本提示和视觉提示的优势,在不同场景中能够展示出卓越的零样本目标检测能力。
- InstructGIE: 通向通用图像编辑的探索
一个新的图像编辑框架,通过增强上下文学习能力和统一语言指导以提高泛化鲁棒性,利用 VMamba Block 和编辑偏移匹配策略来增强图像编辑任务的能力,并结合选择性区域匹配技术和语言统一技术来改善生成图像的质量,同时提供第一个利用视觉提示和 - 对比区域指导:在无需训练的视觉语言模型中改善定位
通过对视觉线索进行引导,使用对比区域引导(CRG)方法可以提高视觉 - 语言模型(VLMs)在多种视觉 - 语言任务上的性能,减少模型偏见,提高准确性。
- ICLR从视觉提示中学习语义代理,实现深度度量学习中的参数高效微调
本研究探讨了用于深度度量学习任务的预训练模型的参数有效微调方法,通过学习视觉提示在预训练的视觉转换器中来增强传统的基于代理的深度度量学习模型的代理,并证明了该方法在度量学习性能上超越了代表性能力的,只微调了一小部分参数的新近工作。
- HCVP: 基于层次对比视觉提示的领域泛化
利用视觉提示的层次对比式视觉提示 (HCVP) 方法,在领域泛化中展示了与传统方法不同的独特生成方式,提高了模型的泛化性能。
- 视觉提示提升神经网络稀疏化:数据模型视角
本研究从数据 - 模型协同设计的角度,提出了一种新颖的数据 - 模型协同设计方法,通过学习重要的模型拓扑和充足的输入数据,促进优秀权重稀疏性。实验结果表明,使用该方法可以显著提高模型剪枝效果,并且从预训练模型中发现的子网络在不同的场景下具有 - 序列建模为大型视觉模型实现可扩展学习
我们引入了一种新颖的顺序建模方法,可以学习大规模视觉模型(LVM)而无需使用任何语言数据。通过将原始图像、视频以及注解数据源转化为 “视觉句子” 的公共格式,我们可以表示各种视觉数据,并通过训练模型来解决多个视觉任务。
- 构建大型多模态模型理解任意视觉提示
该研究介绍了一种新颖的多模态模型,可以解码任意视觉提示,通过在 RGB 图像上直接叠加视觉标记的方式,实现了对特定区域的理解,在区域理解任务上取得了最先进的性能,并提出了 ViP-Bench,一个综合评估模型在理解多个维度上的视觉提示能力的 - T-Rex:通过视觉提示进行计数
T-Rex 是一个交互式的物体计数模型,通过视觉提示将物体计数形式化为开放集物体检测任务,可通过标记参考图像上的点或框来指定感兴趣的物体,然后检测具有相似模式的所有物体,并通过 T-Rex 的视觉反馈进行交互式地修正计数结果。该模型在全面的 - E^2VPT: 一种有效高效的图像提示调整方法
提出了一种有效和高效的视觉提示调整 (E^2VPT) 方法来实现大规模基于 Transformer 的模型适应,该方法通过引入一组可学习的键值提示和视觉提示分别到自注意力和输入层,以提高模型微调的效果,并设计了提示修剪程序来系统地修剪低重要 - ProRes:探索对降级感知的视觉提示来进行通用图像恢复
本文提出了一种利用降噪、去模糊等各种图像退化类型的可控视觉提示符来实现图像恢复的通用模型 ProRes,该模型可以简单调节以适应新任务,并且在控制和自适应性能方面比特定任务的方法更具竞争力。
- 将 3D 几何控制添加到扩散模型中
本篇论文提出了一种利用 3D geometry control 和 visual prompts 的扩展 diffusion models 生成图像的方法,可应用于计算机视觉任务并经过多个数据集的多次实验验证其效果。
- VPUFormer: 交互式图像分割的视觉提示统一变压器
该论文提出了一个简单但高效的视觉提示统一变压器,利用更深入的交互来提高图像分割性能,并使用高斯映射生成一个统一的一维向量来捕获用户的意图,并利用用户反馈逐渐改进候选语义特征,从而逐步提高图像分割性能。
- 细粒度视觉提示
本文介绍了一种新的零样本学习框架,Fine-Grained Visual Prompting(FGVP),通过使用精确的掩码注释来改进视觉提示设计,并展示了在不同的基准测试上均优于传统方法的性能表现。
- FVP:基于傅立叶视觉提示的无源自适应医学图像分割无监督领域适应
本文提出了一种 Fourier Visual Prompting 技术与 Unsupervised Domain Adaptation(UDA)相结合的方法,用于医学图像分割的域自适应。该技术通过在输入目标数据中添加视觉提示,以低频可学习参 - 无图像的自然语言处理任务的视觉增强预训练语言模型
本文提出了一种新的视觉增强微调方法,名为 VAWI, 该方法能够将视觉语义注入到不同 PLMs 或自然语言处理任务中,通过使用视觉饥饿字词的固定 CLIP 文本编码器来产生视觉增强表示,引入了视觉语义,实验结果表明该方法能够改善 BERT、