对比视觉语义预训练增强自然语言表示中的语义
提出一种名为 VT-CLIP 的方法来增强 CLIP 模型,它通过可视化引导文本,使文本的特征更适应图片,在多分类任务中表现出很高的效果。
Dec, 2021
本文提出了一种名为 ECLIP 的改进版 Contrastive Language-Image Pre-training 模型,通过 Masked Max Pooling 方法解决了原模型存在的 semantic shift 问题,在目标检测和可解释性等方面有着较大的提升。
Sep, 2022
通过引入语义组合样本,我们通过一个简单的技术(称为 CLIP-C),显著改善了零样本图像分类和跨模态检索的能力,而不需要额外的计算开销或模型参数增加。
Jul, 2024
本篇研究探讨使用 transformer 模型进行多模态对比预训练的方法,发现优于原始的 CLIP 方法,并且支持参数量的降低,通过共享参数,实现了不同模态之间的信息交互和相近语义结构的转移。
Jul, 2022
本研究针对 CLIP 在像素级开放词汇学习任务中面临的输入像素误识别问题,提出了一种名为 TagCLIP 的改进方法,通过引入一种名为 trusty token 的可信标记,成功提高了现有模型的泛化容量。针对 PASCAL VOC 2012 和 COCO-Stuff 164K 两大数据集,TagCLIP 对于未知分类的 IOU 值均有显著提升。
Apr, 2023
通过在大量文本图像对上进行自我监督的对比学习,RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时,利用模态内和跨模态的排序一致性来提高对齐过程,捕捉每种模态之间和内部的细致的多对多关系,有效提升各种下游任务的性能,尤其在零样本分类方面,显著超越现有方法,突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。
Apr, 2024
本论文提出了 RECO 模型,该模型通过外部记忆检索获取精细化知识,应用于现有视觉文本模型中,并在 Stanford Cars、CUB-2011 和 OVEN benchmark 等多项任务中取得了显著性能提升。
Jun, 2023
本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型,可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。
Jun, 2023
本文通过提出一种新颖的训练免费的组合 CLIP 模型 (ComCLIP) 来解决复合图像和文本匹配的问题,通过将输入图像分解为主题、对象和动作子图像,并组合 CLIP 的视觉编码器和文本编码器来在组成性文本嵌入和子图像嵌入上执行动态匹配,从而实现了对差异性语义的建模,提高了 CLIP 的零样本推理能力。
Nov, 2022
通过基于 VidSitu 数据集的细节导向字幕和层级损失,我们改进了 contrastive language image pretraining (CLIP) 模型,提高了其对细粒度和句法的理解能力,并在不同任务中取得了稳定的改进。
Jan, 2024