利用辅助文本进行深度识别未见视觉关系

Oct, 2019

利用辅助文本进行深度识别未见视觉关系

Leveraging Auxiliary Text for Deep Recognition of Unseen Visual Relationships

Gal Sadeh Kenigsfield, Ran El-Yaniv

TL;DR提出一种融合图像和文本信息用于视觉关系检测和场景图生成的深度模型，通过共同的文本图像表示方法实现文本补充图像数据，结果表明图像中没有的文本信息可以显著提高模型性能

Abstract

One of the most difficult tasks in scene understanding is recognizing interactions between objects in an image. This task is often called visual relationship detection (VRD). We consider the question of whether, given auxiliary textual data in addition to the standard visual data used

visual relationship detection textual data deep model subject-verb-object relationships scene graph generation

发现论文，激发创造

自然语言引导下的视觉关系检测

本研究提出了一种自然语言引导的框架来解决视觉关系检测任务中对象对之间关系分类的问题，并使用双向循环神经网络以及语义连接来预测参与关系的对象之间的语义连接。该方法在 Visual Relationship Detection 和 Visual Genome 数据集上取得了最佳状态，特别是在未预测关系的情况下。

Nov, 2017

知识增强的少样本视觉关系检测

本研究提出了一个基于知识增强的少样本学习（few-shot learning）框架，利用预训练语言模型和自动构建的视觉关系知识图谱获取了文本知识和视觉关系知识，从而提高了少样本学习的实用性和性能。与现有最先进模型相比，在常用的 Visual Genome 数据集的三个基准测试中，本方法的性能大幅超越了现有最先进模型。

Mar, 2023

深度监督的多模态注意力翻译嵌入在视觉关系检测中的应用

本论文提出了一种新的基于深度学习的架构 —— 多模态注意力翻译嵌入模型，该模型使用多模态关注机制驱动每个分支的视觉特征，并在常用的 VRD 数据集上的实验表明，该方法明显优于其他相关方法。

Feb, 2019

通过语言表达视觉关系

该研究利用编码器 - 解码器结构和关系注意力等特征，提出了一种新的在两个图像之间生成关系说明的模型，并透过对新收集及公开的数据集进行实验，证明其比现有的各种基准线和方法都要好。

Jun, 2019

利用内部和外部语言知识蒸馏的视觉关系检测

该研究使用语言统计学的知识来规范视觉模型的训练，在学习视觉关系中的主语、谓语和宾语等实体之间的关系时，可以更准确地反映它们之间的联系。实验结果表明，使用此语言知识提炼，可显著提高模型的检测性能。

Jul, 2017

使用深度关系网络检测视觉关系

通过深度关系网络的嵌入式框架，探讨和利用对象之间以及它们的关系之间的统计依赖关系，从而实现更好的图像理解能力。

Apr, 2017

具有语言先验知识的视觉关系检测

本研究提出了一种新的模型，使用语义词嵌入的语言先验知识进行训练，以预测图像中的多个视觉关系，同时将物体和谓词分别训练，并在图像中标定对象的位置，从而提高基于内容的图像检索的准确性。

Jul, 2016

场景图 ViT：端到端开放词汇视觉关系检测

通过引入无解码器架构和注意力机制，我们提出了一种简单高效的基于 Transformer 的图像编码器模型，用于开放词汇视觉关系检测，并在 Visual Genome 和大词汇 GQA 基准测试上实现了最好的关系检测性能。

Mar, 2024

使用场景描述的语义建模改进视觉关系检测

通过将语义模型与视觉统计模型相结合，并应用多种先进的链接预测方法，本研究证明链接预测方法可以提高对于视觉关系检测的结果，并在 Stanford Visual Relationship 数据集上取得了优于当今最先进方法的性能。

Sep, 2018

基于大型语言模型的复合视觉线索进行零样本视觉关系检测

通过使用 RECODE 方法，利用预训练图像 - 语言模型，我们能够解决零样本可视关系检测中存在的问题，提高了关系检测的准确性和可解释性。

May, 2023