- CVPR基于 Transformer 的视觉关系检测中的群组查询专业化与质量感知多指派
在此研究中,我们提出使用 Groupwise Query Specialization 和 Quality-Aware Multi-Assignment (SpeaQ) 的方法来解决传统标签分配中的两个问题,从而有效地训练专门化的查询,提高 - 场景图 ViT:端到端开放词汇视觉关系检测
通过引入无解码器架构和注意力机制,我们提出了一种简单高效的基于 Transformer 的图像编码器模型,用于开放词汇视觉关系检测,并在 Visual Genome 和大词汇 GQA 基准测试上实现了最好的关系检测性能。
- 使用专家混合模型进行视频关系检测
利用混合专家方法的 MoE-VRD 在视觉关系检测中展示了较优的性能,通过条件计算和可伸缩性能显著增强了神经网络容量。
- 基于遮挡边界框重建的自监督学习视觉关系检测
提出一种新颖的自监督方法用于表示学习,特别适用于视觉关系检测,通过对象级的屏蔽建模,网络学习到能够捕捉场景中对象之间相互作用的上下文感知表示方法,并在少样本情况下通过预测对象间视觉关系,实现了学习稳健视觉表示的效果优于当前最先进的视觉关系检 - STUPD: 用于空间和时间关系推理的合成数据集
提出了 Spatial and Temporal Understanding of Prepositions Dataset (STUPD) - 一个用于理解静态和动态空间关系的大规模视频数据集,旨在帮助模型在真实世界场景中更好地进行视觉关 - ICML神经消息传递用于视觉关系检测
该研究提出了一种基于交互图和神经消息传递算法的视觉关系检测方法,结合语言先验和空间线索进行优化,实验结果表明该方法的优越性。
- VReBERT:一个简单灵活的用于视觉关系检测的 Transformer
利用 VReBERT 模型的多阶段训练策略,联合处理视觉和语义特征的 VRD 模型,可以有效地预测谓词关系,推动零样本预测技术的发展。
- AAAI利用随机加权特征网络表示先验知识进行视觉关系检测
本文使用单层随机权重特征网络进行视觉关系检测,并使用零样本学习方法加以改进,利用逻辑约束表达背景知识及关系,成功预测了训练集中不存在的三元组,相较于逻辑张量网络更高效,参数更少。
- ICCV使用部分和总 Transformer 和复合查询进行视觉关系检测
本文提出了一种名为 PST 的新方法,将计算机视觉应用程序(如视觉关系检测和人物交互)表示为一个复合(结构化)检测问题,在其中,部分和总和均以分级方式被检测。
- 场景图的全面调查:生成与应用
本文对当前场景图研究进行了全面的调查,总结了场景图的定义、生成方法、应用及现有数据集,并对未来发展提出了一些见解。
- 在视觉关系检测中克服假阳性的方向
本文提出 Spatially-Aware Balanced negative pRoposal sAmpling (SABRA) 框架,通过 Balanced Negative Proposal Sampling (BNPS) 策略和 mu - ECCV基于解释的弱监督学习在视觉关系中的应用:图网络
该论文提出了一种新型的弱监督方法,使用最少的图像级谓词标签,利用图神经网络从检测到的对象的图形表示中对图像中的谓词进行分类,将关系检测作为谓词分类器的解释,并在三个不同且具有挑战性的数据集上展示结果,表明该方法具有对不全面注释的强健性和良好 - 利用视觉关系和图卷积网络进行任意形状场景文本检测
本论文提出了一种名为 ReLaText 的新型任意形状文本检测方法,通过采用将文本检测转化为视觉关系检测问题的方法,使用基于锚点自由区域提案网络的文本检测器以及基于图卷积网络(GCN)的链接关系预测模块,实现了更为准确和高效的文本检测。实验 - NODIS: 神经常微分场景理解
本文提出了一种使用神经 ODE 求解的架构来进行语义图像理解,达到了当前三个基准任务的最佳结果,并构建了一个提供图像抽象语义解释的场景图。
- MM基于相对位置挖掘的视觉关系检测
本文提出了一种基于物体对位置深度挖掘的视觉关系检测框架,通过使用 Gated Graph Neural Network 获取谓词间的相关性。在数据集 VRD 和 VG 上的实验结果表明,相对位置信息的挖掘和利用可以显著提高模型的性能。
- 利用辅助文本进行深度识别未见视觉关系
提出一种融合图像和文本信息用于视觉关系检测和场景图生成的深度模型,通过共同的文本图像表示方法实现文本补充图像数据,结果表明图像中没有的文本信息可以显著提高模型性能
- ICCV深度上下文关注人 - 物互动检测
提出了一种上下文关注框架,通过学习上下文感知的人和对象外观特征,并采用自适应方法选择相关实例中心的上下文信息以突出可能包含人物 - 物品交互的图像区域,从而在三个数据集上超越现有最佳方法。
- 基于先验知识对语义图像解释中的监督不完整性进行补偿
本研究提出了一种基于逻辑张量网络的零样本学习方法,利用背景知识和与其他已知关系的相似性来推断在训练集中不存在的三元组 (主语,谓语,宾语),并在视觉关系数据集上实现了更好的性能表现。
- 探索视觉关系检测中的未确定关系
提出一种基于多模态特征下的未确定关系学习网络模型,可以自动地通过对对象对进行一定的判定给出未确定关系,并在三个模态的基础上提取特征,进而得到关系的确定度和预测结果,通过实验验证该方法在关系检测上的有效性。
- 场景图生成可解释模型
提出了一种高效且可解释的场景图生成器,考虑了视觉、空间和语义三种特征并使用了后期融合策略,模型在 OpenImages 可视关系检测竞赛中表现优越,得分比第二名高出 5%(相对增长率 20%),该生成器是实现基于视觉语言任务如图像字幕和视觉