基于排序和 LLM 融合的图像标注描述性改进

Jun, 2023

基于排序和 LLM 融合的图像标注描述性改进

Improving Image Captioning Descriptiveness by Ranking and LLM-based Fusion

Simone Bianco, Luigi Celona, Marco Donzella, Paolo Napoletano

TL;DR本文提出了一种将 SoTA 模型生成的不同字幕进行有效融合的新方法，通过使用图像文本度量来排名模型生成的字幕，然后使用大语言模型（LLM）融合前两个字幕，实验结果表明，我们的方法可以增强字幕的质量和吸引力，缩小了自动化系统与人类生成的描述之间的差距，并开辟了为视觉 - 语言和字幕模型生成更适宜的字幕的新可能性。

Abstract

State-of-The-Art (SoTA) image captioning models often rely on the Microsoft COCO (ms-coco) dataset for training. This dataset contains annotations provided by human annotators, who typically produce captions aver

image captioning ms-coco sota models caption fusion llm

发现论文，激发创造

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

RoCOCO：鲁棒性基准 MS-COCO 以测试图像文本匹配模型的鲁棒性

本文提出了一个新的评估基准来测试 ITM 模型的稳健性，加入了各种欺骗性图像和标题来检测模型。结果发现，添加这些图像和标题会降低 SOTA 模型的性能，预计这些结果能提高模型的鲁棒性和引入更多的评估方法。

Apr, 2023

2015 MSCOCO 图像标注挑战赛的经验教训

本篇论文介绍一种基于深度递归结构的生成模型，其结合了近期在计算机视觉和机器翻译方面的进展，能够用于生成描述图像的自然语言句子，并经过多种数据集的实验，验证了模型的准确性和语言的流畅性。更重要的是，该模型是通过对图像描述的学习而得，在最近的 COCO 数据集比赛中获得了与 Microsoft Research 团队平分秋色的好成绩，并提供了一个基于 TensorFlow 开源的实现。

Sep, 2016

SITTA: 图像描述任务中的语义图像文本对齐

为了使生成合适的图片字幕，需要对图像进行文本和语义理解。我们提出了两种新方法来构建线性映射，从而成功地在两个预训练模型的嵌入空间之间转移语义。使用我们的语义映射，我们为 MS-COCO 和 Flickr30k 数据集实现了强大的字幕性能。即使在数据有限的情况下，我们的方法也能在某种程度上超过其他零样本和微调竞争对手的表现。

Jul, 2023

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020

部分监督图像字幕生成

通过有标签的图片和物体检测数据教授图像字幕模型学习新的视觉概念，通过有限状态自动机表示部分指定的序列数据并提出了一种新颖的算法，可以训练神经网络。在图像字幕任务中，我们取得了基于 COCO 数据集的最新物体字幕任务的最先进结果，并进一步表明，我们可以训练一个字幕模型来描述来自 Open Images 数据集的新的视觉概念，同时保持竞争性的 COCO 评估得分。

Jun, 2018

图像字幕半监督框架

提出了一种新的图像字幕生成方法，该方法能够利用无图像数据的文本数据，并使用区域图像特征生成有意义的二进制向量，从而获得更准确和多样化的字幕。该方法的主要优点是能够生成具有 Salient 图像属性的有意义的二进制向量，并通过软关注机制对其进行解码。

Nov, 2016

图像字幕编码提升零样本泛化能力

最近的视觉语言模型通过将对比方法与生成方法相结合，在下游推理任务（如零样本图像分类）上取得了最先进的效果。然而，图像分类模型的一个持续问题是它们在未知分布下的泛化能力。我们提出了图像 - 字幕编码（ICE）方法，通过直接在评估时仅强制图像条件和字幕条件的预测一致性来引导模型预测到正确的类别。我们展示了该方法可以与其他最先进方法轻松结合，平均提高 0.5％的一流未知分布准确率，在具有挑战性的数据集上高达 3％。

Feb, 2024

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

基于扩散的感知的文本图像对齐

扩散模型是具有令人印象深刻的文本到图像合成能力的生成模型，对于传统机器学习任务产生了一系列创新方法。然而，如何运用这些生成模型的感知知识来进行视觉任务仍然是一个未解之谜。本研究发现，自动生成的描述能够改善文本图像对齐，并显著提升模型的交叉注意力图，从而提高知觉性能。我们的方法在 ADE20K 数据集上改进了当前最先进的基于扩散的语义分割模型，并在 NYUv2 数据集上改进了当前最先进的深度估计模型。此外，我们的方法适用于跨领域环境；我们使用模型个性化和标题修改来将模型与目标域对齐，并改善了非对齐基准的性能。我们的目标检测模型，在 Pascal VOC 数据集上训练，实现了 Watercolor2K 数据集上的最佳结果。我们的分割方法，在 Cityscapes 数据集上训练，实现了 Dark Zurich-val 和 Nighttime Driving 数据集上的最佳结果。

Sep, 2023