视频场景图生成的元空间时偏差校正
该研究提出了一个名为 TEMPURA 的框架,通过基于 Transformer 的序列建模,学习合成无偏差的关系表示,并使用高斯混合模型来减少视觉关系的预测不确定性,从而解决视频动态场景的场景图生成中存在的多种问题。该方法在生成更加无偏的场景图方面具有显著的优势。
Apr, 2023
本文通过因果推断方法构建了一个场景图生成的因果图,并通过传统偏差训练和反事实因果关系推断方法去除其不良偏差,最终提出了一个基于 Total Direct Effect 的无偏差 SGG 框架。
Feb, 2020
提出了一种基于多任务学习的新型动态场景图生成模型,该模型结合了局部交互信息和全局人物行为交互信息,通过对象和帧特征之间的交互使模型更全面地理解单幅图像的视觉环境,并使用长时人体动作监督模型生成符合全局约束条件且避免不能学习尾谓词的多个场景图。实验证明了该框架的功效,不仅改善了动态场景图生成,还缓解了长尾问题。
Aug, 2023
我们提出了一种名为 Trico 的方法,通过探索三种互补的时空相关性来补充缺失的谓词,从而实现了无偏谓词预测,并验证了 Trico 在 VidVRD 和 VidOR 等广泛使用的 VidSGG 数据集上的卓越性能,特别是在那些尾部谓词上。
Jul, 2023
提出了一种将空间 - 时间知识嵌入到多头交叉注意力机制中的空间 - 时间知识嵌入变压器(STKET)模型,用于生成视频场景图并预测语义标签及其关系。经过广泛实验表明,STKET 在不同设置下相对于当前算法的 mR@50 提升了 8.1%,4.7%和 2.1%。
Sep, 2023
本文提出了一种新的视频文本时间对齐评估协议,包括将常用的数据集重新组织为不同的分布以及引入一种新的评估度量方法。此外,作者还提出了一种基于因果关系的多分支去偏置去混淆框架,帮助模型更好地对齐句子查询和视频片段的语义,实现了更好的性能。
Mar, 2022
本文提出了一个新的分类 - 然后接地框架,以避免现有的旧方案存在的三个问题,并且进一步将视频场景图重新定义为时态二分图的形式,提出了一种新的基于二分图的 SGG 模型 BIG,通过两个步骤分类和接地有效地处理了主体对象和断言的关系。
Dec, 2021
本文提出了一种消除多媒体信息检索中选择偏差的 Debiasing-TSG(D-TSG)模型,实现在常见和罕见情况下的 Temporal sentence grounding,在三个基准数据集上取得了最先进的表现。
Jul, 2022
通过建立综合的真实世界视觉感知系统,我们提出并研究了一个称为全景场景图生成(PVSG)的新问题。PVSG 与现有的视频场景图生成(VidSGG)问题相关,后者侧重于视频中的人与物体之间的时间交互,并基于边界框进行实体识别。然而,边界框在检测非刚性物体和背景方面的局限性常常导致 VidSGG 遗漏关键细节,而 PVSG 则要求场景图中的节点由更精确的像素级分割掩码实体识别,以促进整体场景理解。为了推动这一新领域的研究,我们贡献了 PVSG 数据集,其中包含 400 个视频(289 个第三人称视频 + 111 个自我中心视频),包含 150K 帧用于全景分割掩码以及精细的时间场景图。我们还提供了各种基准方法,并分享了未来工作的有用设计实践。
Nov, 2023
本文提出了一种使用因果推理的场景图生成任务去偏置化的方法,其中包含两个阶段的因果建模,第一阶段是因果表示学习,第二阶段是自适应逻辑调整,实验结果表明该方法可以在头尾关系之间实现更好的平衡,达到最先进的性能表现。
Jul, 2023