CVPR2023 NICE 图像字幕挑战的解决方案
本文介绍了一种解决 2024 年 NICE 的 Topic 1 零射击图像字幕挑战的方法,通过检索增强和字幕评分方法有效地增强图像字幕,利用图像字幕模型生成的高质量字幕作为训练数据,利用基于手工模板的大规模视觉 - 语言预训练模型(OFA)执行图像字幕任务,并将字幕级策略与检索增强策略相结合,以生成更高质量、更匹配和语义丰富的字幕。基于这种方法,在排行榜上排名第一,在所有其他指标上都取得了第一名的成绩。
Apr, 2024
NICE 项目是挑战计算机视觉社区发展准确性和公平性都达到最新水平的强大图像字幕模型,通过测试使用一个包含多个领域的大量可视化概念的新评估数据集,没有提供特定的训练数据,要求适应在训练过程中没有见过的新型图像描述。该报告包括 NICE 数据集、评价方法、挑战结果和前列参赛作品的技术细节,预期挑战的结果将促进 AI 模型在各种视觉语言任务上的改进。
Sep, 2023
本文提出了一个基于 context-aware image captioning 的 unified Vision-Language (VL) model,并利用 pretraining 技术解决了 context-independent 问题,以达到比以前更好的效果。
Jun, 2023
本研究聚焦于生成能够区分目标图像和其他相似图像的独特描述,引入了一系列使用大规模视觉 - 语言预训练模型 CLIP 量化独特性的度量标准,并提出了一种简单有效的训练策略,通过比较目标图像与相似图像组并优化组嵌入差距来提高字幕生成模型的独特性,通过与现有最先进的模型的性能比较,我们宣称我们的模型在独特性目标上达到了新的最先进水平。
Aug, 2022
提出了一种新颖的记忆增强型零样本图像字幕生成框架(MeaCap),通过装备文本记忆并引入检索 - 过滤模块,使用基于记忆的视觉相关融合评分及关键词 - 句子语言模型,生成与图像高度一致、拥有更少幻觉和更多世界知识的以概念为中心的字幕;该框架在一系列零样本图像字幕设置中取得了最先进的性能。
Mar, 2024
通过探索不同的混合策略,我们发现合成字幕能够增加网络爬取数据点的效用,并且在 38 个任务中,对于 ImageNet 表现比 DataComp 基准提高 2%, 平均值提高 4%。此外,我们发现使用合成字幕进行多模态训练时,标准图像字幕基准的性能并不可靠,还对 1.28B 图像 - 文本对的大规模分析提供了对合成文本的局限性和随着训练数据数量增加图像筛选的重要性的见解。
Jul, 2023
本研究关注于通过改善数据质量和数据多样性,特别强调了视觉概念与标题的整合,提出了一种用于 web 爬取数据集训练的新方法 VeCLIP,通过综合评估数据效率和模型性能,证明了 VeCLIP 在改善图片 - 文本对齐和整体模型性能方面的显著优势。
Oct, 2023
本文提出了一种新的图像字幕架构,通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成,实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验,证明该框架在多种评估指标下取得了业内最优表现。
Jun, 2020