部分监督图像字幕生成

Jun, 2018

Partially-Supervised Image Captioning

Peter Anderson, Stephen Gould, Mark Johnson

TL;DR通过有标签的图片和物体检测数据教授图像字幕模型学习新的视觉概念，通过有限状态自动机表示部分指定的序列数据并提出了一种新颖的算法，可以训练神经网络。在图像字幕任务中，我们取得了基于 COCO 数据集的最新物体字幕任务的最先进结果，并进一步表明，我们可以训练一个字幕模型来描述来自 Open Images 数据集的新的视觉概念，同时保持竞争性的 COCO 评估得分。

Abstract

image captioning models are becoming increasingly successful at describing the content of images in restricted domains. However, if these models are to function in the wild - for example, as assistants for people with impaired vision - a much larger number and variety of →

image captioning visual concepts sequence learning object detection neural networks

发现论文，激发创造

图像字幕半监督框架

提出了一种新的图像字幕生成方法，该方法能够利用无图像数据的文本数据，并使用区域图像特征生成有意义的二进制向量，从而获得更准确和多样化的字幕。该方法的主要优点是能够生成具有 Salient 图像属性的有意义的二进制向量，并通过软关注机制对其进行解码。

Nov, 2016

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

无监督图像字幕生成

本研究说明无监督学习是可行的图像字幕生成方式，通过利用具有视觉概念检测器的图像集和句子语料库进行训练，生成的字幕能够与图像的语义内容一致且无需图片字幕标注。

Nov, 2018

2015 MSCOCO 图像标注挑战赛的经验教训

本篇论文介绍一种基于深度递归结构的生成模型，其结合了近期在计算机视觉和机器翻译方面的进展，能够用于生成描述图像的自然语言句子，并经过多种数据集的实验，验证了模型的准确性和语言的流畅性。更重要的是，该模型是通过对图像描述的学习而得，在最近的 COCO 数据集比赛中获得了与 Microsoft Research 团队平分秋色的好成绩，并提供了一个基于 TensorFlow 开源的实现。

Sep, 2016

面向对象的无监督图像描述

本文旨在探索无监督图像标注任务，使用已有的图像和文本之间的重叠关系构建用于训练变形金刚模型的数据集以及研究对象信息和属性之间的关系，以此提高无监督方法的性能表现。

Dec, 2021

图像字幕

这篇论文讨论了我们在图像字幕生成实验中的结果，并展示了我们的模型准确性以及从图像描述中学习的语言的流畅性，在几个标记数据集上进行了实验。我们将图像字幕应用于创建视频字幕，并提出了一些挑战性的假设。

May, 2018

使用部分标注数据自检索进行图像字幕生成

该论文描述了一种基于自检索模块的图像字幕生成框架，通过训练引导生成鉴别性的字幕并无需人工标注，从而提高图像字幕的性能。

Mar, 2018

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

卷积图像描述

本文提出了一种卷积图像字幕生成技术，并在 MSCOCO 数据集上展示了其与基准模型相媲美的性能，同时具有更快的训练时间和更少的参数数量。作者还对其模型的优点进行了详细分析，提出了卷积语言生成方法的有力证据。

Nov, 2017

MAT: 图像字幕的多模态注意力翻译器

通过序列到序列的循环神经网络模型，从图像中提取对象序列并引入顺序注意力层，将图像的顺序信息自然地转化为单词序列，在 MS COCO 数据集中超越了现有方法并且在评估服务中也取得了竞争性的结果。

Feb, 2017