VReBERT:一个简单灵活的用于视觉关系检测的 Transformer
本研究提出了一种自然语言引导的框架来解决视觉关系检测任务中对象对之间关系分类的问题,并使用双向循环神经网络以及语义连接来预测参与关系的对象之间的语义连接。该方法在 Visual Relationship Detection 和 Visual Genome 数据集上取得了最佳状态,特别是在未预测关系的情况下。
Nov, 2017
本论文提出了一种新的基于深度学习的架构 —— 多模态注意力翻译嵌入模型,该模型使用多模态关注机制驱动每个分支的视觉特征,并在常用的 VRD 数据集上的实验表明,该方法明显优于其他相关方法。
Feb, 2019
通过引入无解码器架构和注意力机制,我们提出了一种简单高效的基于 Transformer 的图像编码器模型,用于开放词汇视觉关系检测,并在 Visual Genome 和大词汇 GQA 基准测试上实现了最好的关系检测性能。
Mar, 2024
本研究提出了一个基于知识增强的少样本学习(few-shot learning)框架,利用预训练语言模型和自动构建的视觉关系知识图谱获取了文本知识和视觉关系知识,从而提高了少样本学习的实用性和性能。与现有最先进模型相比,在常用的 Visual Genome 数据集的三个基准测试中,本方法的性能大幅超越了现有最先进模型。
Mar, 2023
我们提出了一种首个预训练方法,用于少样本谓词分类,无需任何带注释的关系;我们构建了少样本训练集,并在 VG200 和 VRD 数据集上展示了我们模型超过基准的定量实验;最后,我们通过进行各种定性实验来解释模型的决策。
Nov, 2023
本文提出了一种基于视频物体痕迹检测管道 MEGA 和 deepSORT 的轨迹提议方法,应用于 VidVRD 中,其中设计了基于轨迹的视觉 Transformer,包含时间感知解码器,最终预测关系,实验结果表明了其在 Video Relation Understanding 上的优越性。
Aug, 2021
通过使用 RECODE 方法,利用预训练图像 - 语言模型,我们能够解决零样本可视关系检测中存在的问题,提高了关系检测的准确性和可解释性。
May, 2023
本研究提出了一种新的模型,使用语义词嵌入的语言先验知识进行训练,以预测图像中的多个视觉关系,同时将物体和谓词分别训练,并在图像中标定对象的位置,从而提高基于内容的图像检索的准确性。
Jul, 2016
该研究提出的 VD-BERT 框架,是一种简单且有效的视觉 - 对话 Transformer 编码器,可以通过统一的编码器捕获图像和多回合对话之间的交互,并通过与 BERT 语言模型的整合实现回答的排名和生成,同时无需预训练外部视觉 - 语言数据即可获得最新的最高水平。
Apr, 2020