- CVPRFrozen CLIP: 强大的骨干网络用于弱监督语义分割
本文提出了基于 CLIP 模型的 WeCLIP 方法,用于弱监督语义分割。WeCLIP 将冻结的 CLIP 模型作为骨干网络进行语义特征提取,并设计了新的解码器来解释提取的语义特征进行最终预测。同时,我们利用冻结的骨干网络生成伪标签来训练解 - 面向文本属性的隐式模态对齐的人物搜索
通过 Attribute-Aware Implicit Modality Alignment (AIMA) 框架,使用 CLIP 模型及 Attribute-IoU Guided Intra-Modal Contrastive (A-IoU - 学习多维人类偏好的文本到图像生成
通过引入偏爱条件模块到 CLIP 模型,我们提出了首个用于评估文本到图像模型的多维度偏好评分模型,称为 Multi-dimensional Preference Score(MPS)。MPS 在我们的 Multi-dimensional H - 大语言模型驱动的文本到图像生成的实证研究与分析
本研究探讨使用大型语言模型作为文本编码器,在文本到图像生成中提高语言理解能力,并提出了一种高效三阶段训练流程以整合已有的文本到图像模型和大型语言模型,通过轻量级适配器实现快速训练,并证明实验结果在多语言和长输入环境下获得了优秀的图像生成质量 - 轻量级无监督的预训练视觉语言模型联邦学习
我们提出了一种轻量级的无监督联邦学习方法,通过利用每个客户端上的无标签数据进行轻量级模型训练和通信,从而解决监督式联邦学习中存在的挑战。该方法利用预训练的视觉 - 语言模型(例如 CLIP)的零样本预测能力和经过训练的图像编码器,通过在固定 - CVPR在野外应用具有控制能力的视觉语言模型进行照片逼真图像修复
采用强大的视觉语言模型和合成降解管道,通过基于扩散模型和后验采样策略的鲁棒训练,提高图片还原质量并解决特定数据集无法恢复模糊、缩放、噪声和 JPEG 压缩等不同降解方式的问题。
- 多样化和个性化的图像生成用于零 - shot 多标签分类
通过生成合成数据,用于训练未见标签的分类器,本文介绍了一种用于零样本多标签分类的创新解决方案,包括使用大型语言模型生成多样的提示,使用 CLIP 模型进行图像筛选,以及使用特征融合模块来提高目标任务的视觉特征。实验结果验证了该方法的有效性, - CVPR面向医学图像的通用异常检测的视觉语言模型的适应
本文介绍了一种用于医学异常检测的轻量级多层次自适应对比框架,通过将多个残差适配器整合到预训练的视觉编码器中,通过多级像素级视觉 - 语言特征对齐损失函数引导多级适应,使其适用于医学图像。实验结果表明,我们的方法在医学异常检测基准上显著超越了 - 视觉语言模型泛化的不变测试时间适应
通过测试时间提示调整范式优化学习提示的方式,该方法在下游任务中成功地减轻了依赖于潜在具有误导性的与任务无关的上下文信息,同时强调关键的与任务相关的视觉线索。
- 基于 CLIP 的从 PEFT 梯度的图像重建
通过理论分析,本文提出了一种基于 CLIP 模型的多模态分布式机器学习架构下的重构攻击方法 Multm-In-Parvo (MIP),该方法可以根据软提示或适配器的梯度有效地重构 CLIP 模型的训练图像。
- 强大的 CLIP:用于强大的大规模视觉 - 语言模型的无监督对抗微调的视觉嵌入
我们提出了一种无监督的对抗微调方案来获得强大的 CLIP 视觉编码器,从而在依赖于 CLIP 的所有视觉下游任务(VLM,零样本分类)中获得强大的鲁棒性。
- ICLRFROSTER:冷冻 CLIP 是开放词汇动作识别的强大教师
FROSTER 是一个有效的开放词汇动作识别框架,通过使用残差特征蒸馏方法,能够确保 CLIP 保持其泛化能力,并有效适应于动作识别任务,从而在开放词汇动作识别基准数据集上实现了最先进的性能。
- 增强图像检索:基于 CLIP 模型的照片搜索的全面研究
CLIP 模型是基于文本查询的图像检索的重要进展,通过在大规模数据集上进行训练获得显著的泛化能力,实现了图像和文本的跨模态理解,促进了自然语言理解和计算机视觉的无缝集成,为多媒体应用中的信息检索提供了强大的工具。
- 基于 Top-k 邻居的图像到文本提示的 CLIP 模型
以生成模型为基础,提出了一种用于图像生成提示的低成本方法,在无需大量标注数据的情况下生成文本提示,并将方法划分为在线和离线两个阶段。所提出的系统由离线任务和在线任务两个主要部分组成,具有最高的度量值 0.612,比 Clip、Clip + - AAAI概念引导下的提示学习进行视觉 - 语言模型泛化
通过概念引导提示学习的方式,CPL 方法显著提高了通用化性能。
- 2D-3D 视觉 - 语言蒸馏的 3D 开放词汇全景分割
我们提出了一种新方法,通过学习 LiDAR 特征和固定的 CLIP 特征之间的融合来处理 3D 开放式词汇全景分割问题,并提出了两个新的损失函数:物体级蒸馏损失和体素级蒸馏损失。在 nuScenes 和 SemanticKITTI 数据集上 - GazeCLIP: 通过文本指导提升凝视估计能力
通过设计文本眼部协同学习框架 GazeCLIP,结合视觉注视方向的文本信号和 Contrastive Language-Image Pre-training (CLIP) 模型的优点,实现了先进的视觉注视估计准确性,并在三个具有挑战性的数据 - 计划、姿势与前行:走向开放世界的文本转动作生成
该研究提出了名为 PRO-Motion 的拆分与解决框架,由运动规划器、姿势扩散器和动作扩散器三个模块组成,通过指示大型语言模型生成描述目标动作关键姿势的脚本序列,转化为真实的运动,从而实现了从复杂的开放世界提示生成多样且逼真的运动。
- AAAI语义扰动下的互模态对抗攻击
我们提出了一种新的方法,在互模态优化方案中生成对抗性攻击,利用预训练的 CLIP 模型进行视觉攻击和文本防御,并通过迭代训练策略实现攻击的转移性。我们的方法在多个基准数据集上得到了验证,表明我们的互模态攻击策略能够有效产生高可转移攻击,并且 - CLIP-DINOiser: 教授 CLIP 一些 DINO 的技巧
我们提出了一种零样本开放词汇语义分割方法,无需任何注释,通过从自监督特征中提取出的定位先验来局部改进密集的 MaskCLIP 特征,从而显著提升 MaskCLIP 的性能并产生平滑的输出。