基于多分支关系网络的物体感知时空视频定位
本文研究了一种新的任务,即用于多形式句子的时空视频基础问题。提出了一种名为 Spatio-Temporal Graph Reasoning Network 的方法来解决这个问题,利用时空区域图来捕捉视频中物体的相关性。实验结果表明了本方法的有效性。
Jan, 2020
本文提出了一种新型任务,即利用注意力机制对视频中的自然语句进行弱监督的空时地定位,实现视频中与自然语句语义相符的空时地定位,同时引入多样性损失函数来加强可靠的实例 - 句子配对的匹配行为,并惩罚不可靠的行为,在 ImageNet 视频对象检测数据集上提供了一个新的基准数据集 VID-sentence,并广泛实现了实验结果,表明我们的模型优于基线方法。
Jun, 2019
本文介绍了一项新任务:视频中的视觉关系定位,目的是在视频中定位给定的主谓宾形式关系,以提供支持其他高级视频语言任务(例如视频语言基础和视频问答)。 通过协同优化构建的两个区域序列以及关系关注和重构,我们进一步提出了通过视觉实体之间的空间注意力转移的消息传递机制以解决挑战。我们的模型不仅显着优于基线方法,而且能够产生具有视觉意义的事实以支持视觉基础。
Jul, 2020
本研究设计了一种新颖的关系图学习框架,包括一种语言细化的场景图表示,探索细粒度的视觉概念,并解决了对象幻觉问题。实验结果表明,本方法可以生成更精细和准确的描述。
Dec, 2021
本文提出了一种使用选择 - 查询交互和选择 - 选择关系构建解决视频阅读理解中的时间语言接地问题的框架,并引入了一种新颖的多选择关系构造器,通过利用图卷积捕获最佳选择的视频时刻之间的依赖关系,并在 ActivityNet-Captions、TACoS 和 Charades-STA 数据集上进行了广泛的实验证明了我们的方法的有效性。
Oct, 2021
本文研究了弱监督下的视频句子时间定位问题,提出了一个两阶段模型,通过多尺度滑动窗口形成时间片段的间隔性建议,和在特征空间进行粗细匹配定位,最终在 ActivityNet Captions 数据集和 Charades-STA 数据集上取得良好的表现。
Jan, 2020
本文研究弱监督视频对象定位问题,并探讨了在图像域中使用的多实例学习方法在视频域中的扩展性。作者提出了一种将弱监督信号从视频层面传递到帧层面的方法,并将对象之间的交互作为定位的文本指导。在新收集的基准测试 YouCook2-BoundingBox 上,该模型取得了竞争基线方法无法匹敌的表现。
May, 2018
本文提出一种基于时空图模型的视频字幕生成算法,利用物体间相互作用关系提供显式的视觉表征,通过一种对象感知的知识蒸馏机制,可以在不稳定的性能中实现对象的稳定预测。经过对两个基准测试的广泛实验,展示了我们方法的有效性和可解释性预测的竞争性能。
Mar, 2020
本文提出了一种运用运动和外观引导的三维语义推理网络(MA3SRN)实现时序句子定位,该网络能准确地建模相邻帧之间的活动,并获得在三个具有挑战性的数据集上的最新最好成果。
Mar, 2022
本论文提出一种文本条件化的关系网络模型,通过跨模态的注意力机制动态计算参数以捕获实体之间的精细空间关系,从而实现对文本中空间参照的理解,具有可解释性和鲁棒性,在三个任务中实现了 17% 和 15% 的表现改进,从而解决了在自主导航和机器人控制中学习空间概念表示的关键挑战。
May, 2020