具有动词特定语义角色的类人可控图像标题生成

CVPRMar, 2021

具有动词特定语义角色的类人可控图像标题生成

Human-like Controllable Image Captioning with Verb-specific Semantic Roles

Long Chen, Zhihong Jiang, Jun Xiao, Wei Liu

TL;DR提出了新的控制信号，基于 Controllable Image Captioning (CIC)，包括顶点特定语义角色 (VSR)，通过基于地面的语义角色标记模型 (GSRL) 训练来确定所有实体对于每个角色，借助语义结构计划器（SSP）学习像人类一样的描述性语义结构，并使用角色转移字幕模型生成字幕。

Abstract

controllable image captioning (CIC) -- generating image descriptions following designated control signals -- has received unprecedented attention over the last few years. To emulate the human ability in controlli

controllable image captioning control signals grounded semantic role labeling semantic structure planner role-shift captioning model

发现论文，激发创造

CIC: 一种文化感知的图像描述框架

本文介绍了一种新的框架，即具有文化意识的图像描述（CIC），通过图像中提取的文化视觉元素生成描述性标题，并在 45 位具有对应文化高度了解的不同文化群体参与的人类评估中，与基于 VLP 的图像描述基线相比，证明该框架生成了更具文化描述性的标题。

Feb, 2024

图像描述生成的宏观控制

本论文提出了两种新方法来改善图像字幕模型的多样性、可控性和句子生成质量，并使用图像文本匹配模型来选择更好的句子。实验结果表明，这些方法可以显著提高模型的性能。

Jan, 2021

Show, Control and Tell: 一种生成可控和有基础的字幕的框架

本文介绍了一种新的图像字幕生成框架，该框架包括具有预测文本块和约束条件的递归架构，这些约束条件是通过控制信号（图像区域的序列或集合）确定的，并通过允许地面化和可控性来产生多样化的描述。实验表明，该方法在可控的图像字幕生成方面取得了最先进的性能。

Nov, 2018

实用感问题敏感图像字幕

本文提出了一种基于 Rational Speech Acts 模型的 Issue-Sensitive Image Captioning（ISIC）方法，通过给定一个问题集合和目标图片，生成与问题相关的图像描述并在实验证实其有效性。

Apr, 2020

可控的深度描述生成器与多模态嵌入桥接

提出了一种名为 ControlCap 的可控制的密集字幕生成器，通过引入语言指导来适应用户对于密集字幕生成的意图。ControlCap 是由多模态嵌入生成模块和双向嵌入桥接模块组成的多模态嵌入桥接架构。实验证明，ControlCap 在 Visual Genome 和 VG-COCO 数据集上分别比现有方法提高了 1.5% 和 3.7%（mAP）。并且，通过将区域 - 类别对转换为区域 - 文本对，ControlCap 可以作为密集字幕生成的强大数据引擎。

Jan, 2024

$IC^3$: 图像描述委员会共识

本文介绍了一种名为 “基于委员会共识的图像字幕生成”（$IC^3$）的新方法，该方法通过多个视角捕捉高级细节并生成单个字幕，人们评价 $IC^3$ 生成的字幕的有帮助程度至少与基准 SOTA 模型相同，并且 $IC^3$ 字幕可以将最先进的自动召回系统的性能提高高达 84％，这表明 $IC^3$ 是一个可以改进现有视觉描述的方法。

Feb, 2023

ConZIC: 基于采样平滑的可控零样本图像字幕生成

本研究提出了一种名为 ConZIC 的可控零样本图像字幕生成框架，其中核心是一种称为 GibbsBERT 的采样式非自回归语言模型，与 ZeroCap 相比，ConZIC 在保证准确性的情况下，生成速度可达 5 倍以上，多样性指标高出 1.5 倍。

Mar, 2023

SmartControl：增强控制网络以处理复杂视觉环境

通过设计一种名为 SmartControl 的新型 T2I 生成方法，我们解决了现有 T2I 生成模型中存在的问题，该方法通过放松与文本提示冲突的区域的视觉条件，从而调整图像的粗略视觉条件，使之与文本提示相适应，并在四种典型的视觉条件类型上充分验证了我们的 SmartControl 的有效性。

Apr, 2024

视觉实体的可迁移解码用于零样本图像字幕生成

我们提出了 ViECap，一种可转移的解码模型，利用实体感知解码生成见过和没见过的场景中的描述。ViECap 通过实体感知的硬提示将 LLMs 的注意力引导到图像中存在的视觉实体，实现了跨多样场景的连贯字幕生成。在通过实体感知的硬提示的情况下，ViECap 能够在从域内到域外的场景转移中保持性能。大量实验证明了 ViECap 在跨域（可转移）字幕生成方面的最新水平，并与以前基于 VLMs 的零样本方法在域内字幕生成方面有竞争力。

Jul, 2023

将人类放入图像字幕循环中

通过人工反馈训练图像字幕模型，使其适应特定用户数据，并采用稀疏记忆重播组件避免灾难性遗忘，从而实现自定义图像字幕模型。

Jun, 2023