重新思考基于场景的情境识别的双阶段框架
本文提出了一种基于双向关系的新的两阶段框架,旨在利用动词和语义角色之间的双向关系,生成结构化的图像语义摘要,实现类人事件理解,实验结果表明该框架在挑战性的 SWiG 基准测试中优于其他最先进的方法。
Aug, 2022
本文将基于 Transformer 编码解码框架提出一种 Grounded Situation Recognition 模型,通过有效地捕获图像的高层语义特征实现动词的精确定位,进而在处理实体间复杂的、依赖于图像的关系时进行名词的分类和定位,实现了该领域的最新进展,并在 SWiG 基准测试中实现了优异的表现。
Nov, 2021
通过引入 Language EXplainer (LEX) 方法,本文在 SWiG 数据集上验证了预训练的视觉语言模型在零样本场景理解和基于场景的情境识别方面的有效性和互操作性。
Apr, 2024
本文提出了 Grounded Situation Recognition(GSR)这一任务,研究如何利用图像来生成结构化的语义摘要,重点关注图像中的活动、相关主体的角色和范围、以及实例的语义示踪;通过在 Situation With Groundings(SWiG)数据集上测试,在端到端训练中联合预测场景和示踪方面,相对独立训练的性能提高了 8% 到 32% 之间的相对增益。
Mar, 2020
通过基于图神经网络的模型,我们能够有效捕捉语义角色之间的联合依赖关系,从而在预测图像中最显著的动词和填充其语义角色时取得显著提升,实验证明我们的方法在情境识别中表现优异。
Aug, 2017
本研究提出了一种 Open Scene Understanding 系统,使用 GSR 和 SAM 来生成像素级密集分割掩模,旨在帮助视力受损者增强场景理解,并通过在 SWiG 数据集上的性能达到最新水平。
Jul, 2023
本文提出了一种用于情境识别的新方法,称为 Collaborative Glance-Gaze TransFormer,该方法结合了活动分类和实体估计的互动和互补作用,使用 Glance transformer 和 Gaze transformer 两个模块来实现,其中,Glance transformer 利用 Gaze transformer 来帮助预测主要活动,而 Gaze transformer 在预测了 Glance transformer 预测的活动的前提下,只关注于与该活动相关的实体来估计实体坐标,并在 SWiG 数据集上实现了最新的性能。
Mar, 2022
该论文提出了一种基于 Transformer 编码器 - 解码器的视觉 grounding 方法,通过在不损伤位置定位能力的前提下,在文本描述的指导下学习语义鉴别的视觉特征,具有强大的文本 - 视觉语境语义捕捉能力。实验结果表明,在保持快速推理速度的同时,该方法在五个基准上优于现有的提案 - free 方法。
May, 2021
本文提出了一个基于可疑对象图和关键词感知节点表示的一阶视觉定位的方法,用于解决在一阶视觉定位中由于可疑对象的存在导致模型预测错误的问题,并在广泛的基准测试中展示了其有效性。
Mar, 2022
提出了 RiVEG,这是一个统一的框架,将 GMNER 转化为联合的 MNER-VE-VG 任务,通过利用大型语言模型作为连接桥梁,解决了 GMNER 任务中存在的挑战,并通过构建新的 SMNER 任务和 Twitter-SMNER 数据集,实验证明了框架的可行性和有效性。
Jun, 2024