自上而下视角的基于图像实体的图像字幕生成

Jun, 2023

自上而下视角的基于图像实体的图像字幕生成

Grounded Image Captioning in Top-down View

Chen Cai, Suchen Wang, Kim-hui Yap

TL;DR本研究提出了一种一阶段的弱监督图像标题生成方法，通过注入关系模块来鼓励多标签分类中的关系理解，从而提高了关注性能和字幕生成准确性，并在两个具有挑战性的数据集上验证了该方法的有效性。

Abstract

weakly supervised grounded image captioning (WSGIC) aims to generate the caption and ground (localize) predicted object words in the input image without using bounding box supervision. Recent two-stage solutions

weakly supervised grounded image captioning object detection relation understanding state-of-the-art performance

发现论文，激发创造

分布式注意力用于基于图像描述的场景理解

该研究针对弱监督概念下的图片描述问题，提出了一种基于分布式注意力机制和局部连接信息的部分地基准技术，可以帮助生成最佳的图片描述。

Aug, 2021

Align2Ground: 基于图像 - 字幕对准的弱监督短语对齐

使用图像字幕对弱监督进行自由文本短语连接的问题展开研究，提出了一种新颖的端到端模型，并使用字幕到图像检索作为 “下游” 任务来指导短语定位的过程。

Mar, 2019

弱监督视觉引导的关系感知实例细化

本研究提出了一种新的上下文感知弱监督学习方法，它将粗到细的物体细化和实体关系建模结合到一个两阶段深度网络中，以更准确地表述和匹配物体，并通过自我学习回归和关系分析来有效训练必要的分类方法。在 Flickr30K 和 ReferItGame 数据集上的广泛实验表明，本文所提出的弱强化框架比以前的方法具有更好的算法性能，Flickr30K 实体和 ReferItGame 数据集上的 Top-1 准确度分别达到 59.27％和 37.68％。

Mar, 2021

读取、查看和检测：从图像 - 标题对中标注边界框

本文提出一种使用图像标题对来进行弱监督的目标检测和短语定位的方法，并利用视觉语言（VL）模型和自监督视觉变压器（ViTs）进行实验，取得了较好的结果。

Jun, 2023

弱监督词组定位的对比学习

本文介绍了一种通过优化单词 - 区域关注力最大化互信息的方法来学习短语定位，该方法通过利用经过语言模型引导的单词替换来构建有效的负面标题进行训练，进而实现对 CO-Captions 数据集的短语 grounding，使精度提高了 5.7%。

Jun, 2020

无需定位监督学习生成有依据的视觉描述

通过使用循环训练程序来帮助模型在生成句子描述并从本地化的图像 / 视频区域中重建句子以匹配基本事实的过程中，提高了图像标题生成模型的文本本地化能力，而不需要使用本地化监督或在推理过程中引入额外的计算。

Jun, 2019

无检测弱监督分离定位

本文提出一种名为 “基于分离的定位” 的方法，不需使用在弱监督区域定位中常见的预先训练的目标检测器，仅从图像和相关联的自由文本对中直接学习，能够有效地定位文本中的图像区域，并取得了不错的效果。

Apr, 2021

Cap2Det: 学习放大弱标注的图像对象检测

使用文本描述来训练文本分类器，并从中获取足够的信息进行目标实例的弱监督检测，从而实现对于大量自由上传图像信息数据的有效物体定位。

Jul, 2019

通过提炼图像 - 文本匹配模型，实现更加扎实的图像字幕生成

本研究提出了一种基于 Part-of-Speech 增强图像 - 文本匹配模型的方法（称为 POS-SCAN），以提高图像字幕准确性，并且探讨了图像 - 文本匹配分数作为奖励用于更加接近实际对象的图像字幕训练。

Apr, 2020

具有语言结构的短语弱监督视觉定位

文章提出了一种弱监督方法，该方法以图像 - 句子对为输入，学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型，使用两种精心设计的损失函数学习短语的视觉基础，并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。

May, 2017