- 语义组合提升视觉 - 语言对比学习
通过引入语义组合样本,我们通过一个简单的技术(称为 CLIP-C),显著改善了零样本图像分类和跨模态检索的能力,而不需要额外的计算开销或模型参数增加。
- FastCLIP:有限资源加速 CLIP 训练的一套优化技术
该论文探索了在有限资源下进行 Contrastive Language-Image Pretraining (CLIP) 训练的几个方面,介绍了 FastCLIP 框架及其在资源有限环境下的显著改进。
- SignCLIP:对比学习连接文字和手语
SignCLIP 通过重新利用 CLIP 将口语文本和手语视频投影到相同的空间中,用于学习大规模、多语言视频文本对中有用的视觉表示,旨在处理手语。SignCLIP 在 Spreadthesign 上进行预训练,通过不同的下游数据集评估其性能 - 揭秘故障现象:对 CLIP 图像编码错误进行深入研究
我们的研究旨在揭示 CLIP 模型在图像理解方面存在的问题和盲点,通过对比 CLIP 与人类图像理解的共性与差异,我们发现 CLIP 在图像解释上存在与人类感知相比的显著差异,包括行动与静止的混淆、无法识别图像中的运动方向或物体位置、产生类 - IntCoOp:可解释性感知的视觉 - 语言提示调优
通过引入属性级归纳偏差和类嵌入来提高图像 - 文本对齐分数的一种新颖的和可解释的提示调优方法。我们通过在 CLIP 上的广泛实验中评估 IntCoOp 来证明其有效性,并发现在 10 个不同领域的下游数据集上,引入属性级归纳偏差能够比现有的 - WATT: CLIP 的权重平均测试时间适应
本研究介绍了 Weight Average Test-Time Adaptation (WATT) 方法,通过使用多样的文本模板和文本整合策略,增强了 CLIP 模型的测试性能,提高对不同领域转变的适应能力。该方法在多个具有挑战性的数据集上 - KDD预训练视觉 - 语言模型的高效和长尾泛化
针对使 CLIP 适应现实世界的挑战,我们提出了一种名为 Candle 的新框架,通过引入新的损失函数、跨模态注意力和虚拟原型来实现高效、长尾泛化,该方法在 11 个不同数据集上展示出了卓越的性能,并大大减少了训练时间。
- BaFTA:零样本视觉语言模型的无反向传播测试时适应
我们提出了一种名为 BaFTA 的新型零样本学习算法,通过在投影嵌入空间中使用在线聚类来估计类别质心并动态地聚合预测,从而在效果和效率上持续优于最先进的测试时间自适应方法。
- 从 CLIP 中挖掘开放语义:一种关系转换视角的少样本学习方法
通过挖掘开放语义作为锚点,并采用转换器模块进行从图像 - 锚点关系到图像 - 目标关系的关系转换,我们的方法在少样本分类设置中表现出色。
- 利用扩散先验进行外部分布检测
利用扩散模型的生成能力和 CLIP 的强大特征提取能力,我们提出了一种新颖的 OOD 检测方法,通过使用这些特征作为扩散模型的条件输入,我们可以在使用 CLIP 进行编码后重建图像。原始图像与重建图像之间的差异被用作 OOD 识别的信号,我 - 减少文本编码器在零样本组合图像检索中的任务差异
Composed Image Retrieval (CIR) using zero-shot setting and CLIP encoders can be improved by reducing task discrepancy th - CVPR探索视觉语言组合性和识别的光谱
研究了视觉和语言模型领域的复杂关系,特别是在语言理解和细粒度图像与文本对齐方面,探索并评估了现有的 VLMs,在组合性和识别准确性之间的模式和权衡,提出了改进两者能力和基准的策略性努力的必要性。
- 基于 CLIP 的服装无关特征学习与人物换衣再识别
提出了一种名为 CLIP-Driven Cloth-Agnostic Feature Learning (CCAF) 的新颖框架,用于解决 Cloth-Changing Person Re-Identification (CC-ReID) - RWKV-CLIP:一个稳健的视觉 - 语言表示学习器
通过扩展数据集和模型架构,该研究进一步探索了具有对比语言 - 图像预训练(CLIP)的视觉语言任务的性能,在处理来自网站的图像 - 文本对时。通过引入多样化的描述生成框架,该研究提出了 RWKV-CLIP,其中结合了变压器的有效并行训练和循 - 软对齐下探索低质量多模态数据中的对齐语义
使用 Gentle-CLIP 方法,通过将半监督多模态对齐转化为流形匹配问题,利用新型的语义密度分布损失、多核最大平均差异和自监督对比损失等技术实现了更少匹配对的多模态对齐,提升了表示分布的稳定性和模态间的距离,且在蛋白质、遥感和图像语言领 - 解读 CLIP 神经元的二阶影响
我们通过使用文本自动描述单个神经元在 CLIP 中的功能,通过对神经元直接效应(即从神经元通过剩余流到输出的流动)或间接效应(总体贡献)的分析无法捕捉到神经元在 CLIP 中的功能。因此,我们提出了 “二阶镜头”,通过分析从神经元通过后续注 - CSS: LLM 的不确定性量化的对比语义相似性
利用基于 CLIP 的对比语义相似度方法,通过提取相似性特征来度量文本对的不确定性,以提高大型语言模型的可靠性。
- M3DM-NR:RGB-3D 多模态去噪工业异常检测
该研究论文介绍了 RGB-3D 多模态噪声异常检测的新方法 M3DM-NR,通过利用 CLIP 的强大多模态区分能力,提出了噪声抵抗型的框架,并通过阶段性的处理实现了训练样本的去噪,最终实现了 3D-RGB 多模态噪声异常检测与分割,超过了 - ProGEO:通过图像 - 文本对比学习生成提示,用于视觉地理定位
使用 CLIP 和对比学习方法提高视觉地理定位中的视觉性能,并解决使用多模态模型处理地理图像时所面临的挑战。
- ICMLMLIP: 高效多角度语言图像预训练与全面数据利用
通过引入频率转换和标记级别对齐的方法,提出了多视角语言 - 图像预训练(MLIP)来解决 CLIP 在数据利用效率方面的挑战,并通过标记合并方法来加快 CLIP 的速度。