MovieGraphs: 从视频中理解以人为中心的情境
通过构建 327 个电影的电影简介关联(Movie Synopses Associations,MSA)数据集,以及开发一套能够识别电影片段并且和简介段落进行精准匹配的框架,本研究指出利用文学结构和人物互动来提高匹配精度是非常重要的,相较于传统的特征匹配方法,这种基于图形的综合匹配策略能够在电影理解领域有实质性的提升。
Oct, 2019
本文提出了神经网络来学习和联合预测人物之间的互动关系及其涉及的角色,利用视觉和对话提示,通过多模态架构从中提取有意义的信息,并在 MovieGraphs 数据集上进行评估。
Mar, 2020
本文提出了一种基于两个图的模型,其中节点对应于演员和物体,边编码不同类型的交互,通过图神经网络在结果混合图上优化演员、物体及其交互的表示,该方法在 Charades 数据集上实现了最先进的效果,用于解决有关视频理解的挑战性任务,如时间动作定位。
May, 2019
本研究提出了一种基于情境超图的视频问答(SHG-VQA)架构,通过训练超图解码器来预测情境超图,并使用超图和问题嵌入的交叉注意力来预测正确答案,结果表明,学习底层情境超图可以显著提高系统对于视频问答任务的新型挑战的性能。
Apr, 2023
通过基于图神经网络的模型,我们能够有效捕捉语义角色之间的联合依赖关系,从而在预测图像中最显著的动词和填充其语义角色时取得显著提升,实验证明我们的方法在情境识别中表现优异。
Aug, 2017
本文提出了利用时空区域图来捕捉人类行为识别的两个重要线索、以及通过图卷积网络来推理这种表示方法的模型,取得了 Charades and Something-Something 数据集上的最优结果
Jun, 2018
本文提出了一种基于信息传递的图神经网络,能够精确理解视频中行为者、对象和环境之间的关系,在显式表示对象时能够使用显式表示,否则使用隐含表示;在 AVA 和 UCF101-24 的时空行为检测以及最近的 Action Genome 数据集上的视频场景图分类等任务中,实现了最先进的结果,我们定量和定性的显示了我们的方法如何更有效地模拟场景中相关实体之间的关系。
Mar, 2021
本文提出了一种基于图形关系推理网络方法 (GR2N) 的社交关系识别方法,该方法相比现有方法能够更快,更准确地构建社交关系图,并显式地抓住不同类型社交关系之间的强逻辑约束,从而提高社交关系图的性能。
Jul, 2020
本文提出一个基于知识图谱的图推理模型,通过消息传播和图注意力机制,将外部信息有效地整合到深度神经网络中,提高社交关系识别准确性。试验结果表明,该模型在公共基准测试中优于目前领先的竞争对手。
Jul, 2018