任意定制：使用抽象场景图精细控制图像字幕生成

Mar, 2020

任意定制：使用抽象场景图精细控制图像字幕生成

Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

Shizhe Chen, Qin Jin, Peng Wang, Qi Wu

TL;DR提出了一种基于 Abstract Scene Graph 结构的 ASG2Caption 模型，通过识别图形中的用户意图和语义，生成用户想要的注释，进而实现更好的可控性和注释多样性。

Abstract

Humans are able to describe image contents with coarse to fine details as they wish. However, most image captioning models are intention-agnostic which can not generate diverse descriptions according to different user intentions initiatively. In this work, we propose the →

发现论文，激发创造

基于区域注意力和场景分解的图像字幕定位与描述对齐

本文提出了一种使用平行结构、利用图像和句子之间的相似性及上下文信息生成图像描述的方法，将视觉感知与文本描述相结合，使用场景特定的上下文信息对句子中的词语生成进行调整，在多个流行数据集上的实验表明本方法在生成精准、丰富的图像描述方面表现优异。

Jun, 2015

场景图生成可解释模型

提出了一种高效且可解释的场景图生成器，考虑了视觉、空间和语义三种特征并使用了后期融合策略，模型在 OpenImages 可视关系检测竞赛中表现优越，得分比第二名高出 5%（相对增长率 20%），该生成器是实现基于视觉语言任务如图像字幕和视觉问答的重要基石。

Nov, 2018

Show, Control and Tell: 一种生成可控和有基础的字幕的框架

本文介绍了一种新的图像字幕生成框架，该框架包括具有预测文本块和约束条件的递归架构，这些约束条件是通过控制信号（图像区域的序列或集合）确定的，并通过允许地面化和可控性来产生多样化的描述。实验表明，该方法在可控的图像字幕生成方面取得了最先进的性能。

Nov, 2018

通过场景图分解实现全面图像字幕化

通过细粒度的图像场景图表示，我们重新设计了图像标题生成模型，实现了准确、多样、可控制的标题生成，同时在标题多样性、项点化及可控制性等方面均取得了最新最佳结果。

Jul, 2020

为图像字幕生成辩护：场景图的重要性

提出了 SG2Caps 框架，该框架利用场景图标签进行图像说明，以避免昂贵的图形卷积。该框架利用空间位置和 HOI 标签作为附加的 HOI 图，实现了更好的性能。

Feb, 2021

具有动词特定语义角色的类人可控图像标题生成

提出了新的控制信号，基于Controllable Image Captioning(CIC)，包括顶点特定语义角色(VSR)，通过基于地面的语义角色标记模型(GSRL)训练来确定所有实体对于每个角色，借助语义结构计划器（SSP）学习像人类一样的描述性语义结构，并使用角色转移字幕模型生成字幕。

Mar, 2021

通过标题的关注蒸馏生成场景图

文章阐述了如何使用图像注释中的注意力分配机制来增强场景图的估计能力，提出了一种称为主题场景图的方法，学习从图像到自然语言的映射，并用于关系重要性估计。

Oct, 2021

将视觉场景图转换为图像说明

本论文提出了一种新的图像/视频描述方法，称之为 TSG，它使用多头注意力机制 (MHA) 和混合专家解码器，将场景图转换为更具描述性的字幕，并在 MS-COCO 数据集上取得了很好的效果。

May, 2023

TextPSG: 从文本描述生成全景场景图

从纯文本描述中生成全景场景图，通过区域分组器、实体对齐器、段合并器和标签生成器构建无显式链接、无预定义概念集的场景理解框架，有效地提高了性能和鲁棒性。

Oct, 2023

基于图的字幕生成：通过连接区域描述增强视觉描述

使用图结构的图像描述方法及其在模型训练中的性能提升

Jul, 2024