观察和修改：用于图像字幕生成的修改网络

Sep, 2019

观察和修改：用于图像字幕生成的修改网络

Look and Modify: Modification Networks for Image Captioning

Fawaz Sammani, Mahmoud Elsayed

TL;DR通过建模剩余信息并在每个时间步长决定保留、删除或添加已有语句，本研究提出了一种新的模型框架，能够成功地修改原有的内容从而提高评估分数。

Abstract

attention-based neural encoder-decoder frameworks have been widely used for image captioning. Many of these frameworks deploy their full focus on generating the caption from scratch by relying solely on the image

attention-based neural encoder-decoder frameworks image captioning modifying captions residual information better evaluation scores

发现论文，激发创造

展示、编辑、描述：一种编辑图像标题的框架

本文提出了一种基于迭代自适应改进现有标题的图像字幕生成的新方法，该方法包括两个子模块：一个具有自适应复制机制和选择性复制存储器注意机制的语言模块 EditNet 和一个基于 LSTM 的去噪自编码器 DCNet，实验表明我们的方法在 MS COCO 数据集上取得了最先进的性能。

Mar, 2020

用于生成标题的评论网络

该研究提出了一种扩展的编码器 - 解码器框架 - 评论网络，通过对编码器隐藏状态进行多次注意力机制的评论步骤来输出思维向量，并将这些思维向量作为解码器中的注意力机制的输入，该框架在图像标题和源代码标题两个任务上表现优于现有的编码器 - 解码器系统。

May, 2016

基于交叉修改的注意力推理模型用于图像字幕生成

本研究提出了一种基于交叉修改注意力的两次解码框架，用于图像描述生成任务。通过在 Deliberation Model 中集成 CMA 模块，可以过滤掉从 Drafting Model 获取的错误信息并增强图像特征的语义表达能力，从而提高了生成文本描述的质量。在 MS COCO 数据集上进行的实验表明，我们的方法相较于现有的单次解码和其他基于两次解码的方法，有显著的性能提升。

Sep, 2021

预训练的 CNN 与基于 GRU 的注意力机制在图像标题生成中的比较研究

使用深度神经网络和 GRU 注意机制对图像进行描述生成的研究提出了一种深度神经网络框架，通过多个预训练的卷积神经网络作为编码器从图像中提取特征，并使用 GRU 语言模型作为解码器生成描述性句子。通过将 Bahdanau 注意模型与 GRU 解码器集成，我们的方法提高了性能，并在 MSCOCO 和 Flickr30k 数据集上展示出与最先进方法相比具有优势的分数。我们提出的框架可以弥合计算机视觉和自然语言之间的差距，并可以扩展到特定领域。

Oct, 2023

基于 GRU 注意机制的图像字幕生成的深度神经网络框架

本研究旨在利用预先训练的卷积神经网络，结合注意力机制和循环神经网络，将图像特征与语言模型相结合，实现图像描述生成。实验结果与现有先进方法相比，具有竞争性的性能。

Mar, 2022

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

借助过去的一点点帮助：用于图像字幕的原型记忆网络

本文介绍了一种通过原型记忆模型，在处理其他训练样本时，可以执行对激活进行注意力操作的网络，并通过 COCO 数据集上的实验进行了评估。

Aug, 2023

基于 CNN 编码器 - 解码器框架的压缩图像字幕生成

我们的项目旨在通过开发结合卷积神经网络（CNN）和编码 - 解码模型的自动图像字幕架构来解决图像字幕的挑战。我们还进行了性能比较，研究了多种预训练 CNN 模型的性能变化，并探索了频率正则化技术在压缩 “AlexNet” 和 “EfficientNetB0” 模型方面的整合，旨在在更节省资源的同时保持模型的有效性。

Apr, 2024

图像字幕的循环融合网络

本文提出了一种使用多个编码器的循环融合网络 (RFNet) 来处理图像字幕生成问题，RFNet 可以利用多个编码器的输出之间的相互作用，生成新的、紧凑而且信息丰富的表示，验证实验表明，RFNet 对于图像字幕生成问题是有效的，并且取得了最新的最好结果。

Jul, 2018

CNN+CNN：用于图像字幕生成的卷积解码器

本文在图像字幕生成方面，提出了一种仅利用卷积神经网络生成字幕的框架，通过并行计算，训练速度比基于 LSTM 的模型快 3 倍，同时在 MSCOCO 图像字幕数据集上获得了比 LSTM 更高的评估得分。

May, 2018