双向时序图的目标感知聚合用于视频字幕生成

CVPRJun, 2019

双向时序图的目标感知聚合用于视频字幕生成

Object-aware Aggregation with Bidirectional Temporal Graph for Video Captioning

Junchao Zhang, Yuxin Peng

TL;DR本文提出了一种新的视频字幕生成方法 OA-BTG，该方法利用基于目标感知聚合和双向时间图 (OA-BTG) 来捕捉视频中显著目标的详细时间动态，从而学习具有区分性的时空表示。实验表明 OA-BTG 在 BLEU@4、METEOR 和 CIDEr 指标上达到了最先进的性能。

Abstract

video captioning aims to automatically generate natural language descriptions of video content, which has drawn a lot of attention recent years. Generating accurate and fine-grained captions needs to not only understand the global content of video, but also capture the detailed object

video captioning object-aware aggregation temporal dynamics spatio-temporal representations salient objects

发现论文，激发创造

运用知识蒸馏的时空图像处理技术进行视频字幕生成

本文提出一种基于时空图模型的视频字幕生成算法，利用物体间相互作用关系提供显式的视觉表征，通过一种对象感知的知识蒸馏机制，可以在不稳定的性能中实现对象的稳定预测。经过对两个基准测试的广泛实验，展示了我们方法的有效性和可解释性预测的竞争性能。

Mar, 2020

视频字幕的判别性潜在语义图

该研究提出了一种联合框架解决视频自动生成字幕中的三个关键问题，包括融合时空信息增强物体建议、动态提取高语义级别的视觉词，以及生成字幕验证确保语义概念的有效保留。实验表明该方法在各种评价指标上都显著优于现有的自然语言生成模型。

Aug, 2021

基于双图和门控融合的聚合特征视频字幕生成

本文提出了基于双图和门控融合的视频字幕模型，通过使用两种类型的图来生成视频内容的特征表示，并利用门控融合来进一步理解这些不同层次的信息，以实现对复杂视频对象相互作用的全面理解。在 MSVD 和 MSR-VTT 这两个常用数据集上进行的实验表明，我们提出的方法具有最先进的性能。

Aug, 2023

基于不相交监督的密集视频目标字幕生成

我们提出了一种针对密集视频对象字幕的新任务和模型 - 检测、跟踪和说明视频中所有对象的轨迹。

Jun, 2023

O2NA：一种用于可控视频字幕生成的面向对象非自回归方法

本文介绍了一种基于物体的非自回归方法 (O2NA) 用于视频字幕生成，它包括确定聚焦对象，生成草案字幕，以及将视频信息与草案字幕结合以生成最终流畅字幕等步骤，实验结果表明 O2NA 在 MSR-VTT 和 MSVD 两个基准数据数据集上具有与现有最先进技术相当的结果，但具有更高的多样性和推理速度。

Aug, 2021

针对检索的目标感知视频语言预训练

本文提出了基于物体感知的 Transformer 模型 Object-aware Transformers，使用边界框和物体标签来引导训练过程，将对象表示法引入视频 - 语言架构中，从而提高了视频文本匹配任务的性能。

Dec, 2021

视频对象分割的时空图神经网络基于遮罩重建

该研究提出了一种新型的时空图神经网络（STG-Net）方法，它通过利用所有 Object Proposals 并捕捉它们之间的关联来更精确地重建视频对象分割的遮罩，并通过滑动窗口方法以及记忆模型来捕捉时态相关信息。该方法在四个大型数据集上实现了最新的表现，并展示了其有效性。

Dec, 2020

视频字幕的时空动态与语义属性增强视觉编码

本篇文章提出了一种视觉特征编码技术，使用门控循环单元（GRUs）生成语义丰富的视频字幕，并在 MSVD 和 MSR-VTT 数据集上创造了新的 METEOR 和 ROUGE_L 度量标准的最新技术水平。

Feb, 2019

视频问答的位置感知图卷积网络

本文提出了一种基于图卷积和位置感知的方法，通过将视频内容表示为具有位置信息的图形式来更好地回答视频问答问题。该方法结合了对象物体交互的位置和关系，提取动作的类别和时间位置。在 TGIF-QA、Youtube2Text-QA 和 MSVD-QA 数据集上得出的实验表明该方法优于现有的方法。

Aug, 2020

视频问答中基于密集字幕匹配和帧选择门控的时间定位

本文提出了一种视频问答模型，它有效地集成了多模态输入源并从中找到临时相关信息以回答问题，该模型包括多种设计方法，包括基于稠密图像标题的对象及其详细显著区域和动作识别，双重关注，跨集成和引入了带有人类重要性注释来更好地监督模型的两个损失函数的门控，这个模型在多个数据集上的表现优于现有的技术。

May, 2020