图像字幕编码提升零样本泛化能力

Feb, 2024

图像字幕编码提升零样本泛化能力

Image-Caption Encoding for Improving Zero-Shot Generalization

Eric Yang Yu, Christopher Liao, Sathvik Ravi, Theodoros Tsiligkaridis, Brian Kulis

TL;DR最近的视觉语言模型通过将对比方法与生成方法相结合，在下游推理任务（如零样本图像分类）上取得了最先进的效果。然而，图像分类模型的一个持续问题是它们在未知分布下的泛化能力。我们提出了图像 - 字幕编码（ICE）方法，通过直接在评估时仅强制图像条件和字幕条件的预测一致性来引导模型预测到正确的类别。我们展示了该方法可以与其他最先进方法轻松结合，平均提高 0.5％的一流未知分布准确率，在具有挑战性的数据集上高达 3％。

Abstract

Recent advances in vision-language models have combined contrastive approaches with generative methods to achieve state-of-the-art (SOTA) on downstream inference tasks like zero-shot image classification. However

vision-language models contrastive approaches generative methods out-of-distribution generalization image-caption encoding

发现论文，激发创造

$IC^3$: 图像描述委员会共识

本文介绍了一种名为 “基于委员会共识的图像字幕生成”（$IC^3$）的新方法，该方法通过多个视角捕捉高级细节并生成单个字幕，人们评价 $IC^3$ 生成的字幕的有帮助程度至少与基准 SOTA 模型相同，并且 $IC^3$ 字幕可以将最先进的自动召回系统的性能提高高达 84％，这表明 $IC^3$ 是一个可以改进现有视觉描述的方法。

Feb, 2023

基于排序和 LLM 融合的图像标注描述性改进

本文提出了一种将 SoTA 模型生成的不同字幕进行有效融合的新方法，通过使用图像文本度量来排名模型生成的字幕，然后使用大语言模型（LLM）融合前两个字幕，实验结果表明，我们的方法可以增强字幕的质量和吸引力，缩小了自动化系统与人类生成的描述之间的差距，并开辟了为视觉 - 语言和字幕模型生成更适宜的字幕的新可能性。

Jun, 2023

CVPR2024 NICE 图像字幕挑战的解决方案

本文介绍了一种解决 2024 年 NICE 的 Topic 1 零射击图像字幕挑战的方法，通过检索增强和字幕评分方法有效地增强图像字幕，利用图像字幕模型生成的高质量字幕作为训练数据，利用基于手工模板的大规模视觉 - 语言预训练模型（OFA）执行图像字幕任务，并将字幕级策略与检索增强策略相结合，以生成更高质量、更匹配和语义丰富的字幕。基于这种方法，在排行榜上排名第一，在所有其他指标上都取得了第一名的成绩。

Apr, 2024

指导图像字幕模型生成更具体的字幕

基于图像的标题生成任务中，我们展示了通过微调自回归标题模型来生成更具体的标题，并且在解码过程中应用语言模型指导，从而在参考自由和参考依据的标题度量指标之间取得一定的平衡。

Jul, 2023

CVPR2023 NICE 图像字幕挑战的解决方案

我们在新的零样本图像字幕挑战中提出了解决方案，通过使用 Laion-5B 数据集进行数据级别和 OFA 模型进行模型级别的图像字幕任务，结合对齐图像文本对的对比学习和相似性桶策略，以及检索增强策略构建内容丰富的模板，最终在排行榜上取得了第一名的成绩。

Oct, 2023

图像字幕中检测识别外部分布的基线算法

本文探讨了图像标注中的 OOD 检测问题，并提出了评估模型性能的方法。此外，研究分析并展示了使用标题可能性得分来检测和拒绝 OOD 图像的有效性。

Jul, 2022

MeaCap: 存储增强的零样本图像描述

提出了一种新颖的记忆增强型零样本图像字幕生成框架（MeaCap），通过装备文本记忆并引入检索 - 过滤模块，使用基于记忆的视觉相关融合评分及关键词 - 句子语言模型，生成与图像高度一致、拥有更少幻觉和更多世界知识的以概念为中心的字幕；该框架在一系列零样本图像字幕设置中取得了最先进的性能。

Mar, 2024

通过 CLIP 引导的分组优化实现独特的图像字幕

本研究聚焦于生成能够区分目标图像和其他相似图像的独特描述，引入了一系列使用大规模视觉 - 语言预训练模型 CLIP 量化独特性的度量标准，并提出了一种简单有效的训练策略，通过比较目标图像与相似图像组并优化组嵌入差距来提高字幕生成模型的独特性，通过与现有最先进的模型的性能比较，我们宣称我们的模型在独特性目标上达到了新的最先进水平。

Aug, 2022

ICECAP: 信息聚合的实体感知图像描述

通过使用新闻文章提供的背景知识，我们提出了一种信息集中的实体感知新闻图片字幕（ICECAP）模型，该模型从句子级别到单词级别逐步集中于相关信息，并在 BreakingNews 和 GoodNews 数据集上进行广泛实验，证明了模型的有效性。

Aug, 2021

走向对图片的独特和信息丰富的字幕

本文通过实证实验对现代的图像标注系统和评价指标进行了分析，并引入了一种新的独特度度量标准 SPICE-U，该标准通过使用对象探测器以及使用相互信息作为重新排序目标来改善现有的标注模型。

Sep, 2020