深度学习中的栈式字幕生成：图像字幕学习的粗到细的逐层逼近学习

AAAISep, 2017

深度学习中的栈式字幕生成：图像字幕学习的粗到细的逐层逼近学习

Stack-Captioning: Coarse-to-Fine Learning for Image Captioning

Jiuxiang Gu, Jianfei Cai, Gang Wang, Tsuhan Chen

TL;DR本文提出了一种粗到细的多阶段图像字幕预测框架，利用多个解码器，每个解码器在前一阶段的输出上操作，产生越来越精细的图像描述，优化模型的方法采用了一种强化学习方法，通过利用每个中间解码器的测试推理算法的输出，同时解决了暴露偏差问题和损失评估不匹配的问题，对 MSCOCO 进行广泛评估，并表明我们的方法可以实现最先进的性能。

Abstract

The existing image captioning approaches typically train a one-stage sentence decoder, which is difficult to generate rich fine-grained descriptions. On the other hand, multi-stage image caption model is hard to train due to the →

image captioning multi-stage prediction reinforcement learning vanishing gradient problem state-of-the-art performance

发现论文，激发创造

非自回归式的粗到细视频字幕

本文提出了一种非自回归解码的模型，使用基于双向自注意力的语言模型来加速推理，生成视频字幕的过程分为两个阶段，通过迭代的修改，得到高质量的细致视频描述，大量实验表明该方法达到了最先进的性能，并获得了高推理效率。

Nov, 2019

视频字幕解码器的深度挖掘

本篇研究针对视频字幕模型的解码问题，通过三种技术改进模型的性能，包括使用变分 Dropout 和层归一化改善过拟合问题、提出在线评估模型性能以选择最佳测试检查点的方法、提出专业学习的新训练策略。在 Microsoft Research Video Description Corpus (MSVD) 和 MSR-Video to Text (MSR-VTT) 数据集上进行的实验证明，相较于之前最先进的模型，我们的模型在 BLEU、CIDEr、METEOR 和 ROUGE-L 指标上获得了显著的成果，其中在 MSVD 数据集上提升了高达 18%，在 MSR-VTT 数据集上提升了 3.5%。

Jan, 2020

Stack-VS: 堆叠型视觉语义注意力机制用于图像描述生成

提出了一个基于多阶段架构的模型 (Stack-VS)，与底层 (top-down) 和高层 (bottom-up) 注意力模型结合来生成优质图片标题。使用 LSTM 解码器单元在可视层级和语义层级信息上重定义关注权重，并在 MSCOCO 基准测试中取得了显著的提高。

Sep, 2019

CNN+CNN：用于图像字幕生成的卷积解码器

本文在图像字幕生成方面，提出了一种仅利用卷积神经网络生成字幕的框架，通过并行计算，训练速度比基于 LSTM 的模型快 3 倍，同时在 MSCOCO 图像字幕数据集上获得了比 LSTM 更高的评估得分。

May, 2018

部分监督图像字幕生成

通过有标签的图片和物体检测数据教授图像字幕模型学习新的视觉概念，通过有限状态自动机表示部分指定的序列数据并提出了一种新颖的算法，可以训练神经网络。在图像字幕任务中，我们取得了基于 COCO 数据集的最新物体字幕任务的最先进结果，并进一步表明，我们可以训练一个字幕模型来描述来自 Open Images 数据集的新的视觉概念，同时保持竞争性的 COCO 评估得分。

Jun, 2018

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

卷积图像描述

本文提出了一种卷积图像字幕生成技术，并在 MSCOCO 数据集上展示了其与基准模型相媲美的性能，同时具有更快的训练时间和更少的参数数量。作者还对其模型的优点进行了详细分析，提出了卷积语言生成方法的有力证据。

Nov, 2017

一种简单且高效的端到端图像描述方法

通过联接预训练的视觉编码器和语言解码器，提出了一种自组装的交叉模式融合机制，建立了一种朴素但高效的端到端形象字幕框架，名为 VC-GPT，不需要额外的物体探测器，非常好地解决了现有方法中可能存在的问题，验证结果显示 VC-GPT 完全超越了传统基线系统。

Jan, 2022

HAAV: 图像字幕增强视图的层次聚合

该研究主要利用不同的图像编码方法，来提高图像描述的质量和数据效率，通过在编码视图之间提出对比损失的方式来提高编码质量，并且通过层次式解码器自适应地权衡编码视图的价值，得到了显著的性能提升。

May, 2023

基于 GRU 注意机制的图像字幕生成的深度神经网络框架

本研究旨在利用预先训练的卷积神经网络，结合注意力机制和循环神经网络，将图像特征与语言模型相结合，实现图像描述生成。实验结果与现有先进方法相比，具有竞争性的性能。

Mar, 2022