图像字幕半监督框架

Nov, 2016

A Semi-supervised Framework for Image Captioning

Wenhu Chen, Aurelien Lucchi, Thomas Hofmann

TL;DR提出了一种新的图像字幕生成方法，该方法能够利用无图像数据的文本数据，并使用区域图像特征生成有意义的二进制向量，从而获得更准确和多样化的字幕。该方法的主要优点是能够生成具有 Salient 图像属性的有意义的二进制向量，并通过软关注机制对其进行解码。

Abstract

State-of-the-art approaches for image captioning require supervised training data consisting of captions with paired image data. These methods are typically unable to use unsupervised data such as textual data wi

image captioning unsupervised data visual concepts semi-supervised learning image features

发现论文，激发创造

无监督图像字幕生成

本研究说明无监督学习是可行的图像字幕生成方式，通过利用具有视觉概念检测器的图像集和句子语料库进行训练，生成的字幕能够与图像的语义内容一致且无需图片字幕标注。

Nov, 2018

部分监督图像字幕生成

通过有标签的图片和物体检测数据教授图像字幕模型学习新的视觉概念，通过有限状态自动机表示部分指定的序列数据并提出了一种新颖的算法，可以训练神经网络。在图像字幕任务中，我们取得了基于 COCO 数据集的最新物体字幕任务的最先进结果，并进一步表明，我们可以训练一个字幕模型来描述来自 Open Images 数据集的新的视觉概念，同时保持竞争性的 COCO 评估得分。

Jun, 2018

面向对象的无监督图像描述

本文旨在探索无监督图像标注任务，使用已有的图像和文本之间的重叠关系构建用于训练变形金刚模型的数据集以及研究对象信息和属性之间的关系，以此提高无监督方法的性能表现。

Dec, 2021

基于敌对半监督学习的极度稀缺监督数据图像描述方法

本文提出了一种新颖的数据有效的半监督学习框架，该框架利用大规模的未配对图像和标题数据来学习它们之间的联系，并通过生成对抗网络将伪标签分配给未配对样本，来训练图像字幕模型。实验结果表明，该方法相对于几个强基线的效果明显，尤其是在配对样本数量很少的情况下。此外，我们构建了少配对的 COCO 数据集，证明了我们方法的有效性。

Sep, 2019

利用标题中的信息进行弱监督语义分割

通过多模态网络，该工作借助互联网上的图像标注来进行弱监督学习，实现语境上下文对图像中出现的类别的提取与分割，并在 COCO 数据集上取得了 SOTA 的结果。

May, 2019

语义关注下的图像字幕生成

本文提出了一种融合上下文语境的自动图像描述算法，通过自下而上的计算和语义关注的上下文交互作用，成功在 Microsoft COCO 和 Flickr30K 两个公开基准测试中取得了明显的优于现有算法的结果。

Mar, 2016

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

共享多模态嵌入的无监督图像字幕生成

通过共享的、结构化的视觉概念潜在空间，将图像特征转化到语义向量嵌入空间中，并使用同一语言模型将其解码为场景描述，无需明确监督来了解图像；这种转化借助于暴露于图像 / 标题数据分布之外的大型文本语料库，并且具有鲁棒性。

Aug, 2019

通过对带标签数据进行对抗传输进行半监督图像字幕生成

提出了一种半监督学习方法，使用对抗式学习来为未配对的样本分配伪标签，提升图像字幕模型的泛化性能，并展示了该方法在不同场景下都有较为明显的性能提升，包括关系字幕和网络爬虫数据。

Jan, 2023

探索语义关系的非配对图像字幕生成

本文提出了一种跨越视觉和语言领域的高级语义信息桥接技术，以实现无配对图像说明，并引入了基于语义概念关系探索的解决方案 ——Semantic Relationship Explorer，能够有效地提高图像说明的质量，并且在 MSCOCO 数据集下总体得分比配对数据集高出 8%。

Jun, 2021