RegionCLIP: 基于区域的语言-图像预训练
PyramidCLIP通过分层语义对齐和数据集扩充可以提高图像与文本匹配任务中的性能,并在不同的数据集上取得了极具竞争力的结果。
Apr, 2022
本文提出了一种基于CLIP模型和图像水平监督的对象中心对齐的方法,运用伪标注实现高质量对象提议并在训练过程中扩展词汇表,通过新的权重传递函数将两种对象对齐策略结合,实现了在OVD方案中对象和图像中心表示的最小化差距。在COCO数据集上,我们的方法在新颖类别上取得了36.6的AP50表现,绝对值超过了以前的最佳性能。对于LVIS,我们在罕见类别上超越了最新的ViLD模型达5.0的掩膜AP,总体提高3.4。
Jul, 2022
DetCLIP是一种基于视觉概念预训练的方法,通过设计概念词典进行知识丰富,采用平行概念制定提高学习效率,以及利用在线资源和检测数据集构建概念词典,进而提高零样本检测性能。
Sep, 2022
利用Region prompting和Anchor pre-matching实现CLIP适应开放词汇检测任务,成功应用于目标检测并在评估中超越以前的最佳性能。
Mar, 2023
本文介绍了一种名为DetCLIPv2的训练框架,该框架采用大规模图像-文本对以实现开放词汇目标检测。DetCLIPv2直接从海量图像-文本对中学习了细粒度的单词-区域对齐,并通过融合来自检测、定位和图像-文本对数据的混合监督进行训练。DetCLIPv2采用交替方案和低分辨率输入有效地利用了图像-文本对数据,取得了超过之前工作的表现。
Apr, 2023
以数据筛选为核心的对比语言-图像预训练及元数据筛选的方法MetaCLIP,在多个标准基准测试中优于CLIP以CommonCrawl为数据源的结果,MetaCLIP在零样本ImageNet分类中达到70.8%的准确率,并在1B数据的情况下保持相同的训练预算达到72.4%的准确率。
Sep, 2023
Alpha-CLIP是CLIP的一个增强版本,通过辅助的alpha通道来建议注意力集中的区域,并基于构建的RGBA区域-文本对进行微调。Alpha-CLIP不仅保留了CLIP的视觉识别能力,还能精确控制图像内容的强调,具有在各种任务中展现有效性的强大潜力,包括但不限于开放世界识别、多模态大语言模型和条件2D / 3D生成。
Dec, 2023
通过在大量文本图像对上进行自我监督的对比学习,RankCLIP在扩展CLIP的刚性一对一匹配框架的同时,利用模态内和跨模态的排序一致性来提高对齐过程,捕捉每种模态之间和内部的细致的多对多关系,有效提升各种下游任务的性能,尤其在零样本分类方面,显著超越现有方法,突显了RankCLIP在进一步推进视觉语言预训练方面的潜力。
Apr, 2024
通过研究CLIP的[CLS]标记对补丁特征相关性的影响,我们提出了一种称为CLIPtrase的训练免费的语义分割策略,通过重新校准补丁之间的自相关性来提高局部特征的认知能力。该方法在分割准确性和对象间语义一致性的保持方面表现出显著的改进,超过了现有的最先进的无需训练的方法。
Jul, 2024
本研究解决了在图像输入与语言交互中的细粒度视觉表示不足的问题。作者提出了一种名为对比局部语言-图像预训练(CLOC)的方法,通过引入区域-文本对比损失和模块,显著增强了CLIP的定位能力。该方法可生成高质量的区域嵌入,提升了多模态大型语言模型在视觉任务中的表现,具有广泛的潜在应用影响。
Oct, 2024