基于全局 - 局部辨别目标的细粒度图像描述

MMJul, 2020

基于全局 - 局部辨别目标的细粒度图像描述

Fine-Grained Image Captioning with Global-Local Discriminative Objective

Jie Wu, Tianshui Chen, Hefeng Wu, Zhi Yang, Guangchun Luo...

TL;DR研究了如何提高生成图片标题的准确性，通过设计全局和局部辨别性约束，使生成的标题更加精细化和具体化，并在 MS-COCO 数据集上进行了评估和自检实验。

Abstract

Significant progress has been made in recent years in image captioning, an active topic in the fields of vision and language. However, existing methods tend to yield overly general captions and consist of some of the most frequent words/phrases, resulting in inaccurate and indistinguis

image captioning fine-grained descriptive captions global-local discriminative objective ms-coco dataset self-retrieval experiments

发现论文，激发创造

用于训练描述性字幕的区分性目标

本文提出了一种改进图像标题生成方法的方法，通过在训练过程中加入与机器学习相关的损失函数来加强图像标题的区分度，从而提高生成标题的质量。

Mar, 2018

具有判别性微调的跨领域图像字幕生成

本文提出在自我监督的证明性沟通目标情况下对预先训练的神经字幕系统进行微调，使其生成更详细的图像描述，并在 Conceptual Captions 数据集上进行验证。

Apr, 2023

LoDisc: 全局 - 本地辨别特征的自监督细粒度视觉识别学习

通过自监督局部微观对比学习任务，将细微的局部特征学习融合到全局自监督对比学习中，形成一个纯自监督的全局 - 局部微细对比学习框架，从而有效提高了细粒度图像特征表示的品质。

Mar, 2024

图像字幕的对比学习

本文提出一种基于对比学习的图像字幕生成方法，即在参考模型的基础上，通过两个约束条件，鼓励生成独特的字幕，从而提高字幕的质量和独特性。我们在两个挑战性数据集上测试了该方法，并证明它是通用的并可用于不同结构的模型。

Oct, 2017

来自上下文无关监督的上下文感知字幕

本文针对图像生成环境下的语境问题，提出了一种关键词区分的图像描述生成方法，该方法不需要针对每个具体图像进行训练，可以在广泛的背景数据上实现对关键特征的描述和生成。根据实验和人类调查结果显示，该方法在区分性描述上优于基准生成型和发话人 - 听众型方法。

Jan, 2017

基于分组的记忆关注图像独特描述

本研究提出了一种基于组的独特字幕模型 (GdisCap)，使用组内图像比较方法来提高图像字幕的独特性，并引入了基于组的记忆关注机制 (GMA) 来突出每个图像的唯一性，从而提高字幕的独特性。实验结果表明所提出的方法在准确性和独特性方面均表现出最先进的性能。

Aug, 2021

基于联合目标的细粒度图像描述生成方法

提出了基于联合目标的创新细粒度图像描述生成模型，结合图像级别和对象级别的视觉特征，通过对象惩罚机制减少描述重复，并引入新的基于对象的评估度量来直观地评估模型在处理描述重复和遗漏问题上的性能。实验结果表明，该方法显著改善了 CIDEr 评估度量，并显示出在解决描述重复和遗漏问题方面的出色性能。

Sep, 2023

使用部分标注数据自检索进行图像字幕生成

该论文描述了一种基于自检索模块的图像字幕生成框架，通过训练引导生成鉴别性的字幕并无需人工标注，从而提高图像字幕的性能。

Mar, 2018

通过 CLIP 引导的分组优化实现独特的图像字幕

本研究聚焦于生成能够区分目标图像和其他相似图像的独特描述，引入了一系列使用大规模视觉 - 语言预训练模型 CLIP 量化独特性的度量标准，并提出了一种简单有效的训练策略，通过比较目标图像与相似图像组并优化组嵌入差距来提高字幕生成模型的独特性，通过与现有最先进的模型的性能比较，我们宣称我们的模型在独特性目标上达到了新的最先进水平。

Aug, 2022

独特的图像字幕化：借助 CLIP 引导强化学习的基准真实字幕

用训练图像字幕模型的教师强迫方法生成的样本非常通用，而更具有独特性的字幕对于检索应用或生成描述图像的替代文本以提高可访问性非常有用。这篇论文提出了一种新的图像字幕模型训练策略，其中利用了不同方式的真实字幕，从而在保持高写作质量的同时生成高度独特的字幕。

Feb, 2024