多任务三元流网络实现密集关系图像字幕生成

CVPROct, 2020

多任务三元流网络实现密集关系图像字幕生成

Dense Relational Image Captioning via Multi-task Triple-Stream Networks

Dong-Jin Kim, Tae-Hyun Oh, Jinsoo Choi, In So Kweon

TL;DR本篇研究提出了一种新的图像描述任务：密集关系字幕，该任务旨在生成多个字幕，涉及视觉场景中对象之间的关系信息。通过使用多任务三重流网络（MTTSNet）训练识别 POS（主客观谓宾分类）并生成字幕，同时使用明确的关系模块来改进它的表现。该模型在大型数据集和多个指标上经过了广泛的实验分析，能够生成更多样化、更丰富的字幕，并将其应用于整体图像字幕，场景图生成和检索任务。

Abstract

We introduce dense relational captioning, a novel image captioning task which aims to generate multiple captions with respect to relational information between objects in a visual scene. Relational captioning provides explicit descriptions for each relationship between object combinati

dense relational captioning image understanding multi-task triple-stream network relational proposal generation scene graph generation

发现论文，激发创造

密集关系字幕生成：基于三元组网络的关系字幕生成

通过引入 “关系字幕” 任务，使用多任务三流网络（MTTSNet）实现 POS 标签指导图像说明的正确顺序，从而提高图像理解能力，相应地，生成更多样化、更丰富的信息表达。

Mar, 2019

MORE: 多阶关系挖掘用于 3D 场景中的密集字幕生成

本文提出 MORE，一种多阶关系挖掘模型，通过逐步建立空间布局图卷积和基于对象中心的三元组注意力图来捕捉和利用三维场景中的复杂关系，以生成更全面和描述性的标题，证明了 MORE 和其组件的有效性，并超过了现有的最新方法。

Mar, 2022

基于 Transformer 双关系图的多标签图像识别

本文提出了基于 Transformer 双重关系学习框架的方法，通过构建结构关系图和语义关系图，利用显式的语义感知约束来动态地建模图像对象的语义含义，并将学习到的结构关系合并到语义图中，为多对象识别任务提供了一种新的方法。

Oct, 2021

R$^3$Net: 基于关系嵌入的表示重建网络用于变化描述

本文提出了一个基于关系嵌入的表示重建网络（R3Net）来明确区分真实变化和大量混乱和无关变化，并引入了外部语法骨架预测器（SSP）来增强变化定位和字幕生成之间的语义交互，实验结果表明，所提出的方法在两个公共数据集上达到了最先进的水平。

Oct, 2021

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

组合对象关系和属性进行图像 - 文本匹配

本研究中，我们通过引入场景图表示图像标题，利用图注意力网络构建了一个双编码器的图像 - 文本匹配模型，能高效地编码物体 - 属性和物体 - 物体的语义关系，通过提供对图神经网络的强关系归纳偏置进行学习。我们的模型在两个重要的图像 - 文本检索基准数据集 Flickr30K 和 MSCOCO 上进行实验，证明了相对于计算成本高的交叉注意方法，CORA 在召回得分上具有优势，同时实现了双编码器的快速计算速度。

Jun, 2024

协作三流变压器用于视频字幕生成

通过设计一个名为 COllaborative three-Stream Transformers（COST）的新框架，来在视频字幕任务中对句子的主语、谓语和宾语进行特殊关注，通过三个分支的 transformers 以及交叉粒度的注意力模块对不同粒度的视觉 - 语言交互进行建模和对齐，以获得准确的字幕预测。实验证明，COST 方法在视频字幕领域中表现优于现有的方法。

Sep, 2023

关注关系网络：将图像映射到场景图

本研究提出了一种新颖的基于注意力机制的关系网络，其包含两个关键模块和一个目标检测主干以实现场景图自动生成，并在 Visual Genome 数据集上进行了实验验证其有效性和优越性。

Nov, 2018

通过语言表达视觉关系

该研究利用编码器 - 解码器结构和关系注意力等特征，提出了一种新的在两个图像之间生成关系说明的模型，并透过对新收集及公开的数据集进行实验，证明其比现有的各种基准线和方法都要好。

Jun, 2019

深度监督的多模态注意力翻译嵌入在视觉关系检测中的应用

本论文提出了一种新的基于深度学习的架构 —— 多模态注意力翻译嵌入模型，该模型使用多模态关注机制驱动每个分支的视觉特征，并在常用的 VRD 数据集上的实验表明，该方法明显优于其他相关方法。

Feb, 2019