基于物体和交互的视频字幕

Nov, 2017

Grounded Objects and Interactions for Video Captioning

Chih-Yao Ma, Asim Kadav, Iain Melvin, Zsolt Kira, Ghassan AlRegib...

TL;DR提出了利用视频中物体的交互来生成视频字幕的方法，并构建了 SINet-Caption 模型，可以在更精细的视频理解方面获得最先进的结果，同时在 ActivityNet Captions 数据集上进行了实验验证。

Abstract

We address the problem of video captioning by grounding language generation on object interactions in the video. Existing work mostly focuses on overall scene understanding with often limited or no emphasis on

video captioning object interactions sinet-caption fine-grained video understanding activitynet captions dataset

发现论文，激发创造

参与和交互：视频理解的高阶物体交互

本文提出了一种有效学习任意子对象之间的高阶相互作用的方法，用以改善细粒度视频理解的准确性，包括动作识别和视频字幕生成等领域，在两个大规模数据集 Kinetics 和 ActivityNet Captions 上取得了最先进的性能。

Nov, 2017

运用知识蒸馏的时空图像处理技术进行视频字幕生成

本文提出一种基于时空图模型的视频字幕生成算法，利用物体间相互作用关系提供显式的视觉表征，通过一种对象感知的知识蒸馏机制，可以在不稳定的性能中实现对象的稳定预测。经过对两个基准测试的广泛实验，展示了我们方法的有效性和可解释性预测的竞争性能。

Mar, 2020

基于实况视频描述

该文介绍了利用视频中物体的 bounding box 将描述影片的句子与影片中的客观证据联系起来，并给出了一个能够利用 bounding box 的词语注释的视频描述模型，其在视频描述、视频段落描述和图像描述上均表现出了最先进的性能和更好的联系性。

Dec, 2018

视频字幕的判别性潜在语义图

该研究提出了一种联合框架解决视频自动生成字幕中的三个关键问题，包括融合时空信息增强物体建议、动态提取高语义级别的视觉词，以及生成字幕验证确保语义概念的有效保留。实验表明该方法在各种评价指标上都显著优于现有的自然语言生成模型。

Aug, 2021

基于损失加权和对象交互的文本弱监督视频对象定位

本文研究弱监督视频对象定位问题，并探讨了在图像域中使用的多实例学习方法在视频域中的扩展性。作者提出了一种将弱监督信号从视频层面传递到帧层面的方法，并将对象之间的交互作为定位的文本指导。在新收集的基准测试 YouCook2-BoundingBox 上，该模型取得了竞争基线方法无法匹敌的表现。

May, 2018

利用字幕的关注语义视频生成

该研究提出了一种网络架构，利用标题执行可变长度的语义视频生成。网络能够区分视频中的对象，动作和交互，并将它们与长期和短期依赖结合起来，以增量方式生成视频。网络通过学习潜在表示对视频进行无监督生成，并在执行其他任务时表现出了良好的能力，如动作识别和空时样式转移。

Aug, 2017

学习基于图像的句子表示

我们介绍了训练在监督图像字幕语料库上的多种模型，用于预测给定字幕的图像特征，以执行句子表示接地。我们训练了一个接地的句子编码器，在 Coco 字幕和图像检索方面取得了良好的性能，随后展示了该编码器可以成功地转移到各种 NLP 任务，与仅文本模型相比，性能有所提高。最后，我们分析了接地的贡献，表明该系统学习到的单词嵌入优于非接地的单词嵌入。

Jul, 2017

基于自然语言的目标描述和检索

本文介绍了一种基于对象描述的联合学习视觉和语言以深入了解对象的方法，并提出了两个新的架构来解决对象字幕和基于自然语言的对象检索单元。研究表明，使用混合的端到端 CNN-LSTM 网络可以有效地解决两个问题，并在推理时间非常快的同时，提供了对对象的详细理解。

Mar, 2018

利用语言描述中的语义角色进行视频对象定位

本文探讨视频对象基础 (VOG)、研究对象关系信息以及提出了一种新的 VOGNet 框架，利用自我关注和相对位置编码来编码多模态对象关系，并通过引入一种新的对比采样方法构建了 ASRL 数据集，并在此基础上进行实验验证。结果表明，将对象关系编码并应用于 VOG 任务可以大大提高模型表现。

Mar, 2020

使用基准和共指人生成描述

提出了一种基于弱监督学习的电影描述模型，通过学习角色的可视外观和描述之间的关系来实现角色地位的划分，该模型不仅提高了生成描述的质量，还实现了角色定位，局部共指分辨率，并在 MPII 电影描述数据集上进行了评价。

Apr, 2017