更新 CLIP 以偏爱描述而非标题
自然语言和图片联合训练的 CLIP 模型可用于基于图像的字幕的评估过程中,而无需参考词,CLIPScore 作为一种新的无参考评估指标可以实现与人类判断的最高相关性。
Apr, 2021
本研究提出使用基于大规模图像 - 文本对训练的多模态编码器 CLIP 计算多模态相似度并将其用作奖励函数来产生更加具有描述性和独特性的标题,同时证明使用 CLIP 奖励相较于传统奖励模板对于改善生成模型具有优势,并介绍了一种简单的 CLIP 文本编码器微调策略以提高语法。
May, 2022
本文提出了一种利用 CLIP 模型进行半监督图像标注的方法,包括图像编码器、映射网络和语言模型,通过对比生成的标题和实际标题,并使用未标记的图像进行二次训练,得到了与完整数据集训练的业界最先进模型相比可比的性能,且标题更加独特、信息量更大,并且符合人类的偏好。
Jun, 2023
通过训练对比图像 - 文本编码器,利用明确的评论式对提高检索结果的准确性进行了大幅改进,并且这种改进可扩展至多种非英语语言。
Sep, 2023
本文使用 CLIP 编码作为前缀,利用简单的映射网络,然后微调语言模型以生成图像标题,无需额外的注释或预训练,有效地为大规模和多样化的数据集生成有意义的标题。同时,我们证明了我们的模型在有挑战性的概念标题和 nocaps 数据集上取得了可比较的结果,同时更简单、更快、更轻。
Nov, 2021
提出了基于对比学习的图像标注评估指标 PAC-S,使用生成的图像和文本进一步统一了对比视觉 - 语义空间的学习,实验中表现最好,超过了 CIDEr、SPICE 和 CLIP-Score 等其他指标。
Mar, 2023
本研究聚焦于生成能够区分目标图像和其他相似图像的独特描述,引入了一系列使用大规模视觉 - 语言预训练模型 CLIP 量化独特性的度量标准,并提出了一种简单有效的训练策略,通过比较目标图像与相似图像组并优化组嵌入差距来提高字幕生成模型的独特性,通过与现有最先进的模型的性能比较,我们宣称我们的模型在独特性目标上达到了新的最先进水平。
Aug, 2022
通过比较图像和语言数据的传输表现,研究证明,当预训练数据集足够大而又包含了低变异性的描述性标题时,对于分类任务来说,仅使用图像的方法不能与 CLIP 的传输性能相匹配。
Jul, 2022
本研究关注于通过改善数据质量和数据多样性,特别强调了视觉概念与标题的整合,提出了一种用于 web 爬取数据集训练的新方法 VeCLIP,通过综合评估数据效率和模型性能,证明了 VeCLIP 在改善图片 - 文本对齐和整体模型性能方面的显著优势。
Oct, 2023