ClipCap: 图像字幕的 CLIP 前缀
本文综合研究图像描述中的视觉编码、文本生成、训练策略、数据集和评估指标等方面,量化比较多个相关的最前沿方法,以识别体系结构和训练策略中最具影响力的技术创新并探讨问题的许多变体和开放挑战,旨在为理解现有文献和强调计算机视觉和自然语言处理领域的未来方向提供工具。
Jul, 2021
本研究提出了一项名为CLIP-TD的方法,对视觉-语言任务进行有针对性的蒸馏,以适应每个实例自适应选择的标记。 经过实验证明,我们的CLIP-TD在视觉常识推理,视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益,并在这些任务上取得了最先进的性能。
Jan, 2022
通过比较图像和语言数据的传输表现,研究证明,当预训练数据集足够大而又包含了低变异性的描述性标题时,对于分类任务来说,仅使用图像的方法不能与CLIP的传输性能相匹配。
Jul, 2022
通过对数据规模和语言源域差异的研究,本文提出了一种基于CLIP的OmniSource跨模态学习方法,称为CLIP-ViP,通过视频代理机制改进后续预训练CLIP,从而实现显著提高视频-文本检索的性能。该方法在多个数据集上均取得了SOTA结果。
Sep, 2022
本文提出了一种用于创建图像标题的方法,通过采用额外的视觉信息,包括对象检测器、识别器等来丰富标题,经大型语言模型融合,生成全面的图像描述。实验证明,该方法有效,所提供的数据集显着提高了图像-文本检索。
May, 2023
本文提出了一种利用CLIP模型进行半监督图像标注的方法,包括图像编码器、映射网络和语言模型,通过对比生成的标题和实际标题,并使用未标记的图像进行二次训练,得到了与完整数据集训练的业界最先进模型相比可比的性能,且标题更加独特、信息量更大,并且符合人类的偏好。
Jun, 2023
本研究关注于通过改善数据质量和数据多样性,特别强调了视觉概念与标题的整合,提出了一种用于web爬取数据集训练的新方法VeCLIP,通过综合评估数据效率和模型性能,证明了VeCLIP在改善图片-文本对齐和整体模型性能方面的显著优势。
Oct, 2023
通过基于 VidSitu 数据集的细节导向字幕和层级损失,我们改进了 contrastive language image pretraining (CLIP) 模型,提高了其对细粒度和句法的理解能力,并在不同任务中取得了稳定的改进。
Jan, 2024
通过引入一个简单的微调方法,我们提出了一种改进CLIP模型对于释义的表征的方法,该方法使用大规模语言模型从Web规模的图像字幕中自动创建两类释义,并在固定图像编码器的同时微调CLIP文本编码器。我们的模型ParaCLIP在各种任务中都显示出与基准CLIP模型相比的显著改进,包括释义检索、Visual Genome关系和属性,以及七个语义文本相似度任务。
Feb, 2024
通过在大规模语言模型中生成详细描述的长标题,我们提出了一种动态采样子标题的方法,以在对比学习框架中构建多个正向对并使用分组损失进行自监督训练,实验证明该方法在多种下游任务上具有明显优势。
Mar, 2024