图像字幕生成中的引导解码学习

AAAIApr, 2018

Learning to Guide Decoding for Image Captioning

Wenhao Jiang, Lin Ma, Xinpeng Chen, Hanwang Zhang, Wei Liu

TL;DR本文提出了一种在编码器 - 解码器框架下加入引导网络的方法，以模拟输入图像的属性特征为该任务带来了显著的性能提升，并通过在 MS COCO 数据集上进行的实验进行了验证。

Abstract

Recently, much advance has been made in image captioning, and an encoder-decoder framework has achieved outstanding performance for this task. In this paper, we propose an extension of the →

image captioning encoder-decoder framework guiding network attribute properties end-to-end training

发现论文，激发创造

指导图像字幕模型生成更具体的字幕

基于图像的标题生成任务中，我们展示了通过微调自回归标题模型来生成更具体的标题，并且在解码过程中应用语言模型指导，从而在参考自由和参考依据的标题度量指标之间取得一定的平衡。

Jul, 2023

使用条件生成式对抗网络改进图像标注

本文提出了一种基于条件生成对抗网络的图像描述框架，添加了 “辨别器” 网络去逐步判断生成的描述是人类描述还是机器生成的，该算法是通用的，能够提高任何现有的基于 RL 的图像描述框架，实验表明，这种方法在不同的语言评估指标上有一致的改进。

May, 2018

用于生成标题的评论网络

该研究提出了一种扩展的编码器 - 解码器框架 - 评论网络，通过对编码器隐藏状态进行多次注意力机制的评论步骤来输出思维向量，并将这些思维向量作为解码器中的注意力机制的输入，该框架在图像标题和源代码标题两个任务上表现优于现有的编码器 - 解码器系统。

May, 2016

基于 CNN 编码器 - 解码器框架的压缩图像字幕生成

我们的项目旨在通过开发结合卷积神经网络（CNN）和编码 - 解码模型的自动图像字幕架构来解决图像字幕的挑战。我们还进行了性能比较，研究了多种预训练 CNN 模型的性能变化，并探索了频率正则化技术在压缩 “AlexNet” 和 “EfficientNetB0” 模型方面的整合，旨在在更节省资源的同时保持模型的有效性。

Apr, 2024

深度学习中的栈式字幕生成：图像字幕学习的粗到细的逐层逼近学习

本文提出了一种粗到细的多阶段图像字幕预测框架，利用多个解码器，每个解码器在前一阶段的输出上操作，产生越来越精细的图像描述，优化模型的方法采用了一种强化学习方法，通过利用每个中间解码器的测试推理算法的输出，同时解决了暴露偏差问题和损失评估不匹配的问题，对 MSCOCO 进行广泛评估，并表明我们的方法可以实现最先进的性能。

Sep, 2017

指引我：与深层网络交互

本文研究了通过插入一个空间语义导向层来引导卷积神经网络的性能，包括使用交互式权重的循环模型来学习口头交互，并在两个数据集上进行了评估。

Mar, 2018

观察和修改：用于图像字幕生成的修改网络

通过建模剩余信息并在每个时间步长决定保留、删除或添加已有语句，本研究提出了一种新的模型框架，能够成功地修改原有的内容从而提高评估分数。

Sep, 2019

基于 GRU 注意机制的图像字幕生成的深度神经网络框架

本研究旨在利用预先训练的卷积神经网络，结合注意力机制和循环神经网络，将图像特征与语言模型相结合，实现图像描述生成。实验结果与现有先进方法相比，具有竞争性的性能。

Mar, 2022

基于深度强化学习的图像字幕生成及嵌入奖励

本文介绍了一种新的图像字幕生成框架，利用决策制定的方式，使用多种神经网络和加强学习算法协同生成字幕，并在 Microsoft COCO 数据集上表现良好。

Apr, 2017

引导深度解码器：无监督图像对融合

本研究提出了一种基于引导式深度解码器网络的通用先验，该网络由一个利用引导图像的多尺度特征的编码器 - 解码器网络和一个生成输出图像的深度解码器网络组成，并通过特征细化单元将引导图像的多尺度特征嵌入深度解码器网络，允许网络参数在无监督学习的情况下进行优化，实现了多种图像融合问题的最新性能。

Jul, 2020