- 开放词汇语义场景素描理解
我们研究了机器对抽象手绘场景草图的理解这一未被充分探索但基本的视觉问题。我们介绍了一种草图编码器,其产生了一个语义感知的特征空间,并通过对语义草图分割任务的性能进行评估。为了训练我们的模型,我们仅依赖于具有简要标题的位图草图的可用性,并且不 - RetailKLIP:使用单个 GPU 基于度量学习对 OpenCLIP 主干进行微调,实现零样本的零售产品图像分类
该研究主要探索如何用最近邻分类的方法对零售产品或打包食品进行图像分类,并使用 CLIP 模型的视觉编码器进行微调以实现准确性与完全微调相当甚至超过完全微调的结果,从而节省资源和等待时间。
- TAB: 工业检测任务的文本对齐异常骨干模型
近年来,对工业检测任务中的异常检测和定位的关注加强。本文利用视觉语言 CLIP 模型提出了一种新的框架来训练适用于制造领域的骨干模型,同时考虑了正常和异常条件的视觉和文本对齐嵌入空间。所得到的预训练骨干模型显著提高了工业下游任务的性能,尤其 - SequencePAR: 通过序列生成范例理解行人属性
基于 CLIP 模型的预训练特征提取和序列生成模式,提出一种新的行人属性识别方法 SequencePAR,利用生成模型更好地建模人体属性之间的依赖和复杂性,有效通过多个数据集实验证明了该方法的有效性。
- BadCLIP:针对 CLIP 的触发器感知提示学习的后门攻击
本研究提出了一种名为 BadCLIP 的方法,针对 CLIP 模型在 prompt 学习阶段注入后门,通过影响图像和文本编码器的方式生成可触发的上下文,实现对图片和文本特征的修改,从而进行高效且具有泛化能力的攻击。实验证实,BadCLIP - 利用基于 CLIP 的多模态方法进行艺术品分类与检索
在艺术作品领域中,我们通过对艺术品图像进行多模式图像预训练,并使用最新的 CLIP 模型,在 NoisyArt 数据集上进行了详尽的实验,取得了令人印象深刻的(零样本)分类效果和良好的艺术品之间及描述与艺术品之间的效果。
- 深入探讨多模式提示在细粒度视觉分类中的应用
本文介绍了一种基于 CLIP 模型的多模态提示解决方案(MP-FGVC),通过跨模态描述充分利用 CLIP 模型在细粒度视觉分类(FGVC)任务中的能力,并且通过多模态的协同推理进一步提高 FGVC 的性能。
- 图像 - 物体特定提示学习用于少样本类增量学习
使用 Contrastive Language-Image Pre-training (CLIP) 模型的泛化能力,我们提出了一种创新的 FSCIL 训练框架,通过为输入图像创建针对图像对象特定属性(如翅膀或轮胎)而非背景的 IOS 分类器 - 动态面部表情识别中激励视觉 - 语言模型
该论文介绍了一种名为 DFER-CLIP 的新型视觉语言模型,它基于 CLIP 模型,用于野外动态面部表情识别 (DFER)。该模型包括视觉部分和文本部分,通过提取时序面部表情特征和学习上下文信息,实现了与当前监督 DFER 方法相比的最先 - MM纯文本训练视觉叙事
利用跨模态预训练的 CLIP 模型,结合纯文本数据训练的视觉条件故事生成器及不依赖训练的视觉条件规划器,提出了一种仅使用文本数据进行训练的视觉叙事方法,有效提高了视觉叙事的泛化能力。在 VIST 基准上进行的广泛实验以及表达多样性和人工评估 - ECO: 基于集成上下文优化的视觉语言模型
通过学习图像分类的一系列提示信息,我们证明了与仅仅依赖一个可训练提示相比,学习多样和可能更短的上下文能够在推理时间不增加额外成本的情况下显著和一致地提高结果,在 11 个不同基准测试中显示了我们方法的能力。
- 使用 CLIP 的半监督图像字幕生成
本文提出了一种利用 CLIP 模型进行半监督图像标注的方法,包括图像编码器、映射网络和语言模型,通过对比生成的标题和实际标题,并使用未标记的图像进行二次训练,得到了与完整数据集训练的业界最先进模型相比可比的性能,且标题更加独特、信息量更大, - Quilt-1M:组织病理学的一百万张图像文本配对
通过从 YouTube 等多种资源中收集图像和文本,我们构建了一个大规模的视觉语言数据集 Quilt-1M,其中共包含 100 万个成对的图像和文本样本,这是到目前为止规模最大的组织学图像和文本数据集,并通过微调预训练的 CLIP 模型在 - ACL基于 CLIP Listener 的实用推理的对比说明
本文提出了一种基于对比度创建区分性字幕的方法,该方法建立在将字幕作为参照游戏进行的实用推理程序上,并利用现成的 CLIP 模型对接收者进行参数化,以在推理分别对待种类相似的其他干扰图像时从 CLIP 获得视觉 - 语言对齐表示,其自动优化字 - 多模态 AI 中的数据保护:采用差分隐私方法进行 CLIP 训练
针对多模态 AI 在视觉 - 语言任务中引发的数据隐私问题,提出了基于差分隐私的 CLIP 模型 (Dp-CLIP),通过梯度裁剪和不满足 DP-SGD 文献分析所假设的平滑条件的损失函数之间的权衡来平衡效用和隐私保护。
- 利用标签检索增强扩散模型从含噪标签中学习
本文从生成模型的角度重构标签噪声问题,提出了 LRA 扩充扩散模型来处理噪声标签。经过广泛的实验验证,我们的模型在所有标准实际基准数据集上均取得了新的最优结果,在许多情况下,通过结合来自强大的 CLIP 模型的条件信息,我们的方法可以将当前 - CVPR 2023 VAND 工作坊挑战赛 1 和 2 的零 / 少样本异常分类和分割方法:在零样本 AD 上获得第一名,在少样本 AD 上获得第四名
本文介绍了用于工业视觉检测的一个方案,该方案使用 CLIP 模型和多个存储器来实现无标准参考图像的零射和少射跟踪,从而实现对大量产品类型的快速自适应,并在 VAND 2023 挑战赛中获得了一等奖。
- 基于词性的视觉语言模型子空间
本文提出了一种通过语法组件分解学习 CLIP 模型中视觉 - 语言联合空间不同视觉模态的基本变化,从而获得解耦的图像和模态表示的方法,并证明其在图像合成和零样本分类方面的有效性。
- 基于基础模型的通用领域适应
基于基础模型(如 CLIP 或 DINOv2),本文通过全面实证研究最新的通用域自适应方法,发现现有方法往往无法超越基准线表现;作者提出了一种简单的基于目标数据提炼的方法,并在所有通用分类率基准测试中实现了一致的改进,提出了新的评价指标 U - 使用非对角信息进行不断的视觉 - 语言表征学习
本文讨论了连续训练 CLIP 模型的可行性,并通过跟踪连续更新的 CLIP 模型中的表示向量的方向变化,将这些空间变化总结为空间扰动(SD),其可分为 Intra-modal Rotation 和 Inter-modal Deviation