CVPR2023 NICE 图像字幕挑战的解决方案

Oct, 2023

CVPR2023 NICE 图像字幕挑战的解决方案

The Solution for the CVPR2023 NICE Image Captioning Challenge

Xiangyu Wu, Yi Gao, Hailiang Zhang, Yang Yang, Weili Guo...

TL;DR我们在新的零样本图像字幕挑战中提出了解决方案，通过使用 Laion-5B 数据集进行数据级别和 OFA 模型进行模型级别的图像字幕任务，结合对齐图像文本对的对比学习和相似性桶策略，以及检索增强策略构建内容丰富的模板，最终在排行榜上取得了第一名的成绩。

Abstract

In this paper, we present our solution to the New frontiers for Zero-shot Image Captioning Challenge. Different from the traditional image captioning datasets, this challenge includes a larger new variety of visual concepts from many domains (such as COVID-19) as well as various

zero-shot image captioning visual concepts image types clip-filtered dataset contrastive learning

发现论文，激发创造

CVPR2024 NICE 图像字幕挑战的解决方案

本文介绍了一种解决 2024 年 NICE 的 Topic 1 零射击图像字幕挑战的方法，通过检索增强和字幕评分方法有效地增强图像字幕，利用图像字幕模型生成的高质量字幕作为训练数据，利用基于手工模板的大规模视觉 - 语言预训练模型（OFA）执行图像字幕任务，并将字幕级策略与检索增强策略相结合，以生成更高质量、更匹配和语义丰富的字幕。基于这种方法，在排行榜上排名第一，在所有其他指标上都取得了第一名的成绩。

Apr, 2024

NICE 2023 零 - shot 图像标题挑战

NICE 项目是挑战计算机视觉社区发展准确性和公平性都达到最新水平的强大图像字幕模型，通过测试使用一个包含多个领域的大量可视化概念的新评估数据集，没有提供特定的训练数据，要求适应在训练过程中没有见过的新型图像描述。该报告包括 NICE 数据集、评价方法、挑战结果和前列参赛作品的技术细节，预期挑战的结果将促进 AI 模型在各种视觉语言任务上的改进。

Sep, 2023

ICCV 2023 第一届科学图像标题生成挑战的解决方案

通过文本摘要生成图像标题，提取 OCR 信息，提取特定图像的信息，使用评估指标 BRIO 进行质量评估，获得最高的得分。

Mar, 2024

不要断章取义：统一的视觉语言预训练为上下文辅助的图像字幕生成

本文提出了一个基于 context-aware image captioning 的 unified Vision-Language (VL) model，并利用 pretraining 技术解决了 context-independent 问题，以达到比以前更好的效果。

Jun, 2023

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

通过 CLIP 引导的分组优化实现独特的图像字幕

本研究聚焦于生成能够区分目标图像和其他相似图像的独特描述，引入了一系列使用大规模视觉 - 语言预训练模型 CLIP 量化独特性的度量标准，并提出了一种简单有效的训练策略，通过比较目标图像与相似图像组并优化组嵌入差距来提高字幕生成模型的独特性，通过与现有最先进的模型的性能比较，我们宣称我们的模型在独特性目标上达到了新的最先进水平。

Aug, 2022

MeaCap: 存储增强的零样本图像描述

提出了一种新颖的记忆增强型零样本图像字幕生成框架（MeaCap），通过装备文本记忆并引入检索 - 过滤模块，使用基于记忆的视觉相关融合评分及关键词 - 句子语言模型，生成与图像高度一致、拥有更少幻觉和更多世界知识的以概念为中心的字幕；该框架在一系列零样本图像字幕设置中取得了最先进的性能。

Mar, 2024

通过图像描述的方式改进多模态数据集

通过探索不同的混合策略，我们发现合成字幕能够增加网络爬取数据点的效用，并且在 38 个任务中，对于 ImageNet 表现比 DataComp 基准提高 2%，平均值提高 4%。此外，我们发现使用合成字幕进行多模态训练时，标准图像字幕基准的性能并不可靠，还对 1.28B 图像 - 文本对的大规模分析提供了对合成文本的局限性和随着训练数据数量增加图像筛选的重要性的见解。

Jul, 2023

从稀缺到高效：通过视觉丰富的标题改进 CLIP 训练

本研究关注于通过改善数据质量和数据多样性，特别强调了视觉概念与标题的整合，提出了一种用于 web 爬取数据集训练的新方法 VeCLIP，通过综合评估数据效率和模型性能，证明了 VeCLIP 在改善图片 - 文本对齐和整体模型性能方面的显著优势。

Oct, 2023

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020