CLIPSelf:视觉 Transformer 用于开放词汇密集预测的自我精简
RegionCLIP 是一种新的方法,扩展了 CLIP 模型的范围,使其可以学习区域级别的视觉表征,从而实现图像区域和文本概念之间的细粒度对齐,进而在目标检测领域表现出良好的性能。
Dec, 2021
通过引入新的自相关自注意力(CSA)机制,增强了 CLIP 在语义分割方面的潜力,并且在零样本 mIoU 方面明显优于现有的 SoTA 结果和原始的 CLIP。
Dec, 2023
本研究提出了一项名为 CLIP-TD 的方法,对视觉 - 语言任务进行有针对性的蒸馏,以适应每个实例自适应选择的标记。 经过实验证明,我们的 CLIP-TD 在视觉常识推理,视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益,并在这些任务上取得了最先进的性能。
Jan, 2022
本研究提出了一个名为 CLIP-VIS 的简单编码器 - 解码器网络,用于自适应开放词汇视频实例分割。CLIP-VIS 采用冻结的 CLIP 图像编码器,并引入了类不可知的掩码生成、时序 Top-K 增强匹配和加权开放词汇分类三个模块,实验结果表明该方法在各种视频实例分割数据集上表现出色。
Mar, 2024
CLIP(Contrastive Language-Image Pre-training)是一种强大的多模态视觉模型,该论文提出了一种 CLIP Surgery 方法,可以在不降低性能的情况下提升 CLIP 的解释性和性能,并在开放词汇任务中获得了显着的提高,如 NUS-Wide 多标签识别上得到了 4.41% 的平均精度提升,Cityscapes 开放词汇语义分割任务上的 mIoU 也超过了现有方法的 8.74%。
Apr, 2023
本文提出了一种名为 CLIP-DIY 的开放词汇语义分割方法,该方法利用现有的无监督目标定位方法,直接在不同尺度的补丁上利用 CLIP 的分类能力,并通过无监督的目标定位方法指导分割过程,从而在 PASCAL VOC 上获得了最新的零样本语义分割结果,并在 COCO 上表现与最佳方法相当。
Sep, 2023
通过提出 ReCLIP 方法,第一个无需源数据或目标标记数据的视觉 - 语言模型领域自适应方法,该方法使用伪标签进行交叉模态自训练以减小领域间差异和错位对模型性能的影响,在 22 个图像分类基准测试中将 CLIP 的平均错误率从 30.17% 降低到 25.06%。
Aug, 2023
利用对比语言 - 视觉模型 CLIP,我们可以实现无需人工注释或额外训练的短语定位方法,其零样本短语定位性能优于现有无训练方法,并在某些情况下甚至超过了有监督的方法。
Apr, 2022
通过扩展数据集和模型架构,该研究进一步探索了具有对比语言 - 图像预训练(CLIP)的视觉语言任务的性能,在处理来自网站的图像 - 文本对时。通过引入多样化的描述生成框架,该研究提出了 RWKV-CLIP,其中结合了变压器的有效并行训练和循环神经网络的高效推理。通过广泛的实验和多种模型规模和预训练数据集,证明了 RWKV-CLIP 是一个强大而有效的视觉语言表征学习器,在线性探测、零样例分类和零样例图像 - 文本检索等多个下游任务中实现了最先进的性能。
Jun, 2024