基于关系图学习的视频描述生成
本文介绍了一项新任务:视频中的视觉关系定位,目的是在视频中定位给定的主谓宾形式关系,以提供支持其他高级视频语言任务(例如视频语言基础和视频问答)。 通过协同优化构建的两个区域序列以及关系关注和重构,我们进一步提出了通过视觉实体之间的空间注意力转移的消息传递机制以解决挑战。我们的模型不仅显着优于基线方法,而且能够产生具有视觉意义的事实以支持视觉基础。
Jul, 2020
本文提出一种基于时空图模型的视频字幕生成算法,利用物体间相互作用关系提供显式的视觉表征,通过一种对象感知的知识蒸馏机制,可以在不稳定的性能中实现对象的稳定预测。经过对两个基准测试的广泛实验,展示了我们方法的有效性和可解释性预测的竞争性能。
Mar, 2020
该文介绍了利用视频中物体的 bounding box 将描述影片的句子与影片中的客观证据联系起来,并给出了一个能够利用 bounding box 的词语注释的视频描述模型,其在视频描述、视频段落描述和图像描述上均表现出了最先进的性能和更好的联系性。
Dec, 2018
该研究提出了一种联合框架解决视频自动生成字幕中的三个关键问题,包括融合时空信息增强物体建议、动态提取高语义级别的视觉词,以及生成字幕验证确保语义概念的有效保留。实验表明该方法在各种评价指标上都显著优于现有的自然语言生成模型。
Aug, 2021
本文提出了一个视频字幕生成系统,包括一种新颖的基于对象关系图的编码器和一种有效的训练策略,其中使用了教师推荐学习方法和外部语言模型来解决长尾问题,并在多个基准测试中取得最好的性能,实验证明我们的系统是有效的。
Feb, 2020
提出一种基于 Hierarchical Graph Reasoning (HGR) 的模型,将 video-text matching 分解成全局到局部的语义层次;通过基于注意力的图推理生成层次化的文本嵌入,进而引导学习多样化和分层的视频表示,并通过整合不同的 video-text 层次的匹配来捕获全局和局部细节,从而实现视频和文本之间的交叉检索。
Mar, 2020
提出了一种基于弱监督学习的电影描述模型,通过学习角色的可视外观和描述之间的关系来实现角色地位的划分,该模型不仅提高了生成描述的质量,还实现了角色定位,局部共指分辨率,并在 MPII 电影描述数据集上进行了评价。
Apr, 2017
通过结合神经场景图生成器和最先进的模型,我们的实验表明用于促进语言到视觉关系的关系特征能够显著改进标准的 Flickr30K 和 MSCOCO 基准测试,在端到端的视觉和语言应用中捕获视觉关系。
Sep, 2019
本文探讨视频对象基础 (VOG)、研究对象关系信息以及提出了一种新的 VOGNet 框架,利用自我关注和相对位置编码来编码多模态对象关系,并通过引入一种新的对比采样方法构建了 ASRL 数据集,并在此基础上进行实验验证。结果表明,将对象关系编码并应用于 VOG 任务可以大大提高模型表现。
Mar, 2020
本文介绍了一种基于全连通时空图的条件随机场模型,利用空间和时间上的关系较强的实体之间的统计依赖关系,通过在视觉观察条件下学习自适应关系来对其进行优化,同时,其在视频数据集(ImageNet Video 和 Charades)上表现出了最先进的性能。
Mar, 2019