上下文感知的视觉策略网络用于细粒度图像字幕生成

MMJun, 2019

上下文感知的视觉策略网络用于细粒度图像字幕生成

Context-Aware Visual Policy Network for Fine-Grained Image Captioning

Zheng-Jun Zha, Daqing Liu, Hanwang Zhang, Yongdong Zhang, Feng Wu

TL;DR该论文提出了一种上下文感知的视觉策略网络（CAVP）来实现细粒度的图像描述生成，通过明确考虑前面的视觉注意力并使用当前视觉注意力决定是否将其用于当前词 / 句子生成，CAVP 可以随时间考虑复杂的视觉组合，从而在 MS-COCO 和 Stanford 字幕数据集上表现出卓越的性能。

Abstract

With the maturity of visual detection techniques, we are more ambitious in describing visual content with open-vocabulary, fine-grained and free-form language, i.e., the task of image captioning. In particular, we are interested in generating longer, richer and more fine-grained senten

image captioning visual policy context-aware visual policy network sequential language prediction compositional reasoning

发现论文，激发创造

上下文感知的视觉策略网络用于序列级图像描述

该研究提出了一种上下文感知的可视策略（CAVP）神经网络，通过深度强化学习技术，能够有效的实现面向序列的图像描述。与传统的视觉注意力方法不同，CAVP 可以在时间上应用复杂的视觉组合，并涵盖了先前的视觉关注上下文来推测当前的词生成过程，从而更好地捕捉图像中的视觉关系和比较，最终在 MS-COCO 数据集上表现出了最先进的性能。

Aug, 2018

ParaCNN: 基于对抗孪生上下文 CNN 的视觉段落生成

本文提出了一种使用纯 CNN 模型生成可包含丰富细节的长段落视觉描述的方法，使用上下文信息的层次 CNN 架构，以及对抗性训练方案，以实现全面建模段落的目的，并在 Stanford 视觉段落数据集上获得了最先进的性能。

Apr, 2020

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

新闻图片标题生成的视觉感知上下文建模

新闻图像字幕生成的自动化方法通过设计面部命名模块和检索策略以优化视觉信息处理，并超越之前的最佳性能表现。

Aug, 2023

面向细粒度视觉分类的上下文感知注意池化 (CAP)

提出了一种基于上下文感知的注意力池化（CAP）方法和特征编码技术，可以有效地捕获子像素梯度，无需边界框和 / 或可区分的部分注释，从而学习关键部位的特征表示。经过在六个最先进的骨干网络和八个基准数据集上的评估，该方法在六个数据集上表现显著优于最先进的方法，并且在其余两个数据集上非常有竞争力。

Jan, 2021

不要断章取义：统一的视觉语言预训练为上下文辅助的图像字幕生成

本文提出了一个基于 context-aware image captioning 的 unified Vision-Language (VL) model，并利用 pretraining 技术解决了 context-independent 问题，以达到比以前更好的效果。

Jun, 2023

对图像字幕生成所需的语言单词与视觉语义单位进行对齐

本文提出了一种结合图卷积网络（GCN）的视觉语义单元对象相互作用的图形语义和几何建模方法，利用上下文门控注意力模块将当前单词与视觉语义单元对齐，针对 MS-COCO 图像字幕数据集，与现有方法相比报告了更好的结果。

Aug, 2019

基于区域注意力和场景分解的图像字幕定位与描述对齐

本文提出了一种使用平行结构、利用图像和句子之间的相似性及上下文信息生成图像描述的方法，将视觉感知与文本描述相结合，使用场景特定的上下文信息对句子中的词语生成进行调整，在多个流行数据集上的实验表明本方法在生成精准、丰富的图像描述方面表现优异。

Jun, 2015

生成描述性图像段落的分层方法

本文提出一种生成整段文字描述图片的方法，相比仅仅用一句话进行描述，该方法能够提供更加细致以及连贯的故事情节。该方法使用了分层递归神经网络对图片中的语义区域以及自然语言进行建模并生成整段文字。在实验中该方法被证明是较为有效的。

Nov, 2016

基于深度强化学习的图像字幕生成及嵌入奖励

本文介绍了一种新的图像字幕生成框架，利用决策制定的方式，使用多种神经网络和加强学习算法协同生成字幕，并在 Microsoft COCO 数据集上表现良好。

Apr, 2017