去混淆化的图片字幕生成：一项因果回顾研究

Mar, 2020

去混淆化的图片字幕生成：一项因果回顾研究

Deconfounded Image Captioning: A Causal Retrospect

Xu Yang, Hanwang Zhang, Jianfei Cai

TL;DR本文提出了一种基于因果推断的新颖视角：去混淆图像标题（DIC），给出了 DICv1.0 框架，并在 MS-COCO 数据集的 Karpathy 和在线分裂上展示了 DICv1.0 的改进：两个流行的标题模型分别达到了单模型的 130.7 CIDEr-D 和 128.4 c40 CIDEr-D，为图像标题提供了有前途的方向。

Abstract

The dataset bias in vision-language tasks is becoming one of the main problems that hinder the progress of our community. However, recent studies lack a principled analysis of the bias. In this paper, we present

dataset bias vision-language tasks deconfounded image captioning neural image captioners causal inference

发现论文，激发创造

带因果干预的依赖式多任务学习在图像字幕生成中的应用

本文提出了一种基于因果干预的依赖多任务学习框架（DMTCI）来解决图像描述生成过程中出现的问题，该框架采用包含类别生成、因果计算和多智能体强化学习策略来提高模型对视觉特征的理解和生成句子的一致性及信息性。实验结果表明，DMTCI 模型优于基准模型，并达到了与最先进模型相媲美的性能。

May, 2021

CIC: 一种文化感知的图像描述框架

本文介绍了一种新的框架，即具有文化意识的图像描述（CIC），通过图像中提取的文化视觉元素生成描述性标题，并在 45 位具有对应文化高度了解的不同文化群体参与的人类评估中，与基于 VLP 的图像描述基线相比，证明该框架生成了更具文化描述性的标题。

Feb, 2024

平衡画面：利用合成对比集去偏置视觉 - 语言数据集

通过提出一个新颖的数据处理流程来纠正常用公平度量工具 (Bias@K) 存在偏见且不精确的问题。该流程通过提供一组性别平衡的对比集来扩充 COCO Captions 数据集，我们基于此数据集证明了在多个基于 CLIP 的模型中偏差的存在，表明了性别与图像背景之间毫无意义的相关性。最终，我们基于这些结果证明了我们的方法可以提高 Bias@K 的可靠度，从而对相关社会科学进行更准确的预测。

May, 2023

使用对比奖励提升基于参考的独特图片描述

该研究提出了新的 Ref-DIC 基准和基于 Transformer 的 Ref-DIC 模型 TransDIC 及 TransDIC++，并采用新的指标 DisCIDEr 评估其生成字幕的准确性和独特性，实验结果表明 TransDIC++ 在两个新基准上优于其他现有模型。

Jun, 2023

基于预训练和对比学习的图像差异字幕生成

本文提出了一种基于自监督学习的图像差异描述任务的建模框架，并通过对比学习策略来提高视觉与语言的相关性，同时使用数据扩展方法利用多余的监督信息来拓宽有限的数据集，实验表明这种方法有效。

Feb, 2022

揭示和纠正图像字幕数据集和模型中的性别偏见

本文研究了 COCO 图像描述数据集中的性别偏见对训练模型的影响以及如何通过解耦图像描述和性别分类的方法来消除偏见。

Dec, 2019

图像字幕中的种族偏见理解和评估

本研究分析了图像描述中的社会偏见以及种族偏见，具体关注于 COCO 数据集中的感知性别和肤色标注等因素。结果表明图像描述模型对于不同肤色的人物的表述、情感和词汇选择存在差异，并发现这种差异在现代模型中更加明显。

Jun, 2021

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

$IC^3$: 图像描述委员会共识

本文介绍了一种名为 “基于委员会共识的图像字幕生成”（$IC^3$）的新方法，该方法通过多个视角捕捉高级细节并生成单个字幕，人们评价 $IC^3$ 生成的字幕的有帮助程度至少与基准 SOTA 模型相同，并且 $IC^3$ 字幕可以将最先进的自动召回系统的性能提高高达 84％，这表明 $IC^3$ 是一个可以改进现有视觉描述的方法。

Feb, 2023

认知弹性：揭示图像字幕模型解读屏蔽视觉内容的能力

这项研究探讨了图像字幕（IC）模型解码来自不同数据集的掩蔽视觉内容的能力。我们的发现揭示了 IC 模型生成来自掩蔽图像的字幕的能力，这些字幕与原始内容密切相关。值得注意的是，即使在存在掩蔽的情况下，该模型仍然能够灵活地生成描述性的文本信息，超越了原始图像生成的字幕所能观察到的内容。虽然 IC 模型的解码性能随着掩蔽区域面积的增加而下降，但当图像的重要区域没有大面积掩蔽时，模型仍然表现良好。

Mar, 2024