基于大型语言模型的复合视觉线索进行零样本视觉关系检测
本研究提出了一个基于知识增强的少样本学习(few-shot learning)框架,利用预训练语言模型和自动构建的视觉关系知识图谱获取了文本知识和视觉关系知识,从而提高了少样本学习的实用性和性能。与现有最先进模型相比,在常用的 Visual Genome 数据集的三个基准测试中,本方法的性能大幅超越了现有最先进模型。
Mar, 2023
本研究提出了一种自然语言引导的框架来解决视觉关系检测任务中对象对之间关系分类的问题,并使用双向循环神经网络以及语义连接来预测参与关系的对象之间的语义连接。该方法在 Visual Relationship Detection 和 Visual Genome 数据集上取得了最佳状态,特别是在未预测关系的情况下。
Nov, 2017
我们提出了一种首个预训练方法,用于少样本谓词分类,无需任何带注释的关系;我们构建了少样本训练集,并在 VG200 和 VRD 数据集上展示了我们模型超过基准的定量实验;最后,我们通过进行各种定性实验来解释模型的决策。
Nov, 2023
使用视频片段和时间边界,通过空间边界框和时间边界在视频中检测视觉关系三元组,提出了一种层次上下文模型(HCM),通过片段丰富了基于对象的空间上下文和基于关系的时间上下文,表明使用片段与大多数基于视频的方法相比可以取得更好的性能,并且在模型设计方面提供了更大的灵活性,有助于解决与视频片段相关的局限性,如挑战性的长期物体跟踪问题和长期管状特征压缩中的时序信息丢失。在两个具有挑战性的 VidVRD 基准测试中进行了广泛的实验,验证了我们的 HCM 实现了新的最先进性能,突出了在基于片段的范式内结合高级空间和时间上下文建模的有效性。
Jul, 2023
本论文提出了使用运动线索的组合提示调优方法,名为 RePro,用于开放式词汇视频视觉关系检测的组合式预测。采用多模式设计的提示调优思想,RePro 在两个基准测试中表现出新的最先进性能,并进一步证明了所提出的方法的有效性。
Feb, 2023
本论文提出了一种新的基于深度学习的架构 —— 多模态注意力翻译嵌入模型,该模型使用多模态关注机制驱动每个分支的视觉特征,并在常用的 VRD 数据集上的实验表明,该方法明显优于其他相关方法。
Feb, 2019
本文提出一个优化框架用于在小规模的图像集中并行定位多个视觉关系。框架使用应用于少样本学习的元学习技术,使用简单有效的关系嵌入,将传统的视觉关系定位问题扩展到了 VRC 任务,同时使用贪心近似推理确定大概是最优解。该算法在两个公共数据集上获得高切比实验结果。
Aug, 2021
利用 VReBERT 模型的多阶段训练策略,联合处理视觉和语义特征的 VRD 模型,可以有效地预测谓词关系,推动零样本预测技术的发展。
Jun, 2022
提出一种融合图像和文本信息用于视觉关系检测和场景图生成的深度模型,通过共同的文本图像表示方法实现文本补充图像数据,结果表明图像中没有的文本信息可以显著提高模型性能
Oct, 2019