从标题和边界框中学习关联

ACLDec, 2019

Learning to Relate from Captions and Bounding Boxes

Sarthak Garg, Joel Ruben Antony Moniz, Anshu Aviral, Priyatham Bollimpalli

TL;DR本研究提出一种弱监督学习方法，通过利用图像标题和对象边界框注释作为唯一的监督信息来预测图像中各种实体之间的关系。我们使用自上而下的关注机制将标题中的实体对齐到图像中的对象，然后利用标题的语法结构将关系对齐。我们使用这些对齐来训练关系分类网络，从而获得基于现实的字幕和稠密的关系。我们在 Visual Genome 数据集上展示了我们模型的有效性，其关系的召回率达到 15%（@50）和 25%（@100）。我们还展示了该模型成功预测了与相应字幕中不存在的关系。

Abstract

In this work, we propose a novel approach that predicts the relationships between various entities in an image in a weakly supervised manner by relying on image captions and object bounding box annotations as the sole source of supervision. Our proposed approach uses a top-down attention mech

weakly supervised learning entity relation prediction top-down attention mechanism visual genome dataset relation classification

发现论文，激发创造

读取、查看和检测：从图像 - 标题对中标注边界框

本文提出一种使用图像标题对来进行弱监督的目标检测和短语定位的方法，并利用视觉语言（VL）模型和自监督视觉变压器（ViTs）进行实验，取得了较好的结果。

Jun, 2023

弱监督视觉引导的关系感知实例细化

本研究提出了一种新的上下文感知弱监督学习方法，它将粗到细的物体细化和实体关系建模结合到一个两阶段深度网络中，以更准确地表述和匹配物体，并通过自我学习回归和关系分析来有效训练必要的分类方法。在 Flickr30K 和 ReferItGame 数据集上的广泛实验表明，本文所提出的弱强化框架比以前的方法具有更好的算法性能，Flickr30K 实体和 ReferItGame 数据集上的 Top-1 准确度分别达到 59.27％和 37.68％。

Mar, 2021

利用偏序关系引导注意力进行图像字幕生成

本文提出了一种引导式的注意力网络机制，将图像的空间特征、主题的高级信息以及生成的字幕的时间上下文嵌入到一个有序的嵌入空间中进行训练，采用成对的排序目标函数，该模型在 MSCOCO 数据集上表现出与众多最先进模型相媲美的竞争力。

Apr, 2022

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

探索语义关系的非配对图像字幕生成

本文提出了一种跨越视觉和语言领域的高级语义信息桥接技术，以实现无配对图像说明，并引入了基于语义概念关系探索的解决方案 ——Semantic Relationship Explorer，能够有效地提高图像说明的质量，并且在 MSCOCO 数据集下总体得分比配对数据集高出 8%。

Jun, 2021

Align2Ground: 基于图像 - 字幕对准的弱监督短语对齐

使用图像字幕对弱监督进行自由文本短语连接的问题展开研究，提出了一种新颖的端到端模型，并使用字幕到图像检索作为 “下游” 任务来指导短语定位的过程。

Mar, 2019

视觉关系的弱监督学习

本文介绍了一种新的建模视觉关系方法，设计了强大而灵活的视觉特征，提出了一种弱监督判别式聚类模型来从仅具有图像级标签的数据中学习关系，并引入了一个新的具有挑战性的数据集（UnRel）和详尽的注释，用于准备评估视觉关系检索。实验结果表明，本文提出的模型在视觉关系数据集上取得了显著的提高，并在新引入的 UnRel 数据集上验证了该观察结果的有效性。

Jul, 2017

利用盒子注意力检测视觉关系

通过引入盒子注意力机制的方式，我们提出了一种新的模型来检测视觉关系，例如 “骑摩托车的人” 或 “桌子上的瓶子”。我们在三个具有挑战性的数据集中进行了实验评估并取得了强大的定量和定性结果。

Jul, 2018

利用标题中的信息进行弱监督语义分割

通过多模态网络，该工作借助互联网上的图像标注来进行弱监督学习，实现语境上下文对图像中出现的类别的提取与分割，并在 COCO 数据集上取得了 SOTA 的结果。

May, 2019

多模态预训练中视觉关系的弱监督学习

本文研究了使用小规模可视关系数据的预训练方法，包括使用场景图将可视关系三元组转换为结构化说明，以及使用掩模关系预测进一步鼓励从可视上下文中关联实体，并且证明了这些方法从弱监督关系数据中学习多模态表示的有效性。

May, 2023