VReBERT：一个简单灵活的用于视觉关系检测的 Transformer

Jun, 2022

VReBERT：一个简单灵活的用于视觉关系检测的 Transformer

VReBERT: A Simple and Flexible Transformer for Visual Relationship Detection

Yu Cui, Moshiur Farazi

TL;DR利用 VReBERT 模型的多阶段训练策略，联合处理视觉和语义特征的 VRD 模型，可以有效地预测谓词关系，推动零样本预测技术的发展。

Abstract

visual relationship detection (vrd) impels a computer vision model to 'see' beyond an individual object instance and 'understand' how different objects in a scene are related. The traditional way of →

visual relationship detection vrd object detection semantic features bert-like transformer model

发现论文，激发创造

自然语言引导下的视觉关系检测

本研究提出了一种自然语言引导的框架来解决视觉关系检测任务中对象对之间关系分类的问题，并使用双向循环神经网络以及语义连接来预测参与关系的对象之间的语义连接。该方法在 Visual Relationship Detection 和 Visual Genome 数据集上取得了最佳状态，特别是在未预测关系的情况下。

Nov, 2017

深度监督的多模态注意力翻译嵌入在视觉关系检测中的应用

本论文提出了一种新的基于深度学习的架构 —— 多模态注意力翻译嵌入模型，该模型使用多模态关注机制驱动每个分支的视觉特征，并在常用的 VRD 数据集上的实验表明，该方法明显优于其他相关方法。

Feb, 2019

场景图 ViT：端到端开放词汇视觉关系检测

通过引入无解码器架构和注意力机制，我们提出了一种简单高效的基于 Transformer 的图像编码器模型，用于开放词汇视觉关系检测，并在 Visual Genome 和大词汇 GQA 基准测试上实现了最好的关系检测性能。

Mar, 2024

知识增强的少样本视觉关系检测

本研究提出了一个基于知识增强的少样本学习（few-shot learning）框架，利用预训练语言模型和自动构建的视觉关系知识图谱获取了文本知识和视觉关系知识，从而提高了少样本学习的实用性和性能。与现有最先进模型相比，在常用的 Visual Genome 数据集的三个基准测试中，本方法的性能大幅超越了现有最先进模型。

Mar, 2023

RelVAE: 微量样本视觉关系检测的生成预训练

我们提出了一种首个预训练方法，用于少样本谓词分类，无需任何带注释的关系；我们构建了少样本训练集，并在 VG200 和 VRD 数据集上展示了我们模型超过基准的定量实验；最后，我们通过进行各种定性实验来解释模型的决策。

Nov, 2023

基于轨迹的视觉 Transformer 视频关系检测

本文提出了一种基于视频物体痕迹检测管道 MEGA 和 deepSORT 的轨迹提议方法，应用于 VidVRD 中，其中设计了基于轨迹的视觉 Transformer，包含时间感知解码器，最终预测关系，实验结果表明了其在 Video Relation Understanding 上的优越性。

Aug, 2021

基于大型语言模型的复合视觉线索进行零样本视觉关系检测

通过使用 RECODE 方法，利用预训练图像 - 语言模型，我们能够解决零样本可视关系检测中存在的问题，提高了关系检测的准确性和可解释性。

May, 2023

使用专家混合模型进行视频关系检测

利用混合专家方法的 MoE-VRD 在视觉关系检测中展示了较优的性能，通过条件计算和可伸缩性能显著增强了神经网络容量。

Mar, 2024

具有语言先验知识的视觉关系检测

本研究提出了一种新的模型，使用语义词嵌入的语言先验知识进行训练，以预测图像中的多个视觉关系，同时将物体和谓词分别训练，并在图像中标定对象的位置，从而提高基于内容的图像检索的准确性。

Jul, 2016

VD-BERT: 一个与 BERT 结合的统一视觉和对话 Transformer

该研究提出的 VD-BERT 框架，是一种简单且有效的视觉 - 对话 Transformer 编码器，可以通过统一的编码器捕获图像和多回合对话之间的交互，并通过与 BERT 语言模型的整合实现回答的排名和生成，同时无需预训练外部视觉 - 语言数据即可获得最新的最高水平。

Apr, 2020