基于实况视频描述

CVPRDec, 2018

Grounded Video Description

Luowei Zhou, Yannis Kalantidis, Xinlei Chen, Jason J. Corso, Marcus Rohrbach

TL;DR该文介绍了利用视频中物体的 bounding box 将描述影片的句子与影片中的客观证据联系起来，并给出了一个能够利用 bounding box 的词语注释的视频描述模型，其在视频描述、视频段落描述和图像描述上均表现出了最先进的性能和更好的联系性。

Abstract

video description is one of the most challenging problems in vision and language understanding due to the large variability both on the video and language side. Models, hence, typically shortcut the difficulty in

video description language understanding bounding box annotations video evidence model effectiveness

发现论文，激发创造

用文字转录结果定位物体检测

本文提出一种自动从指示视频中提取实体 - 视频帧对的方法，以用于创建任务特定的训练集元算法。

Jun, 2019

使用基准和共指人生成描述

提出了一种基于弱监督学习的电影描述模型，通过学习角色的可视外观和描述之间的关系来实现角色地位的划分，该模型不仅提高了生成描述的质量，还实现了角色定位，局部共指分辨率，并在 MPII 电影描述数据集上进行了评价。

Apr, 2017

基于关系图学习的视频描述生成

本研究设计了一种新颖的关系图学习框架，包括一种语言细化的场景图表示，探索细粒度的视觉概念，并解决了对象幻觉问题。实验结果表明，本方法可以生成更精细和准确的描述。

Dec, 2021

学习基于图像的句子表示

我们介绍了训练在监督图像字幕语料库上的多种模型，用于预测给定字幕的图像特征，以执行句子表示接地。我们训练了一个接地的句子编码器，在 Coco 字幕和图像检索方面取得了良好的性能，随后展示了该编码器可以成功地转移到各种 NLP 任务，与仅文本模型相比，性能有所提高。最后，我们分析了接地的贡献，表明该系统学习到的单词嵌入优于非接地的单词嵌入。

Jul, 2017

阅读，观看和移动：用强化学习将自然语言描述与视频时序地联系起来

本文通过强化学习和多任务学习建立一个分阶段调整临时定位边界的代理模型，在考虑附加边界信息的训练过程中稳步提高绩效，达到了 ActivityNet'18 DenseCaption 和 Charades-STA 数据集上的最优性能。

Jan, 2019

更加注重细节：视频中句子的弱监督时间根据地

本文研究了弱监督下的视频句子时间定位问题，提出了一个两阶段模型，通过多尺度滑动窗口形成时间片段的间隔性建议，和在特征空间进行粗细匹配定位，最终在 ActivityNet Captions 数据集和 Charades-STA 数据集上取得良好的表现。

Jan, 2020

基于物体和交互的视频字幕

提出了利用视频中物体的交互来生成视频字幕的方法，并构建了 SINet-Caption 模型，可以在更精细的视频理解方面获得最先进的结果，同时在 ActivityNet Captions 数据集上进行了实验验证。

Nov, 2017

弱监督空时自然句子在视频中的基础

本文提出了一种新型任务，即利用注意力机制对视频中的自然语句进行弱监督的空时地定位，实现视频中与自然语句语义相符的空时地定位，同时引入多样性损失函数来加强可靠的实例 - 句子配对的匹配行为，并惩罚不可靠的行为，在 ImageNet 视频对象检测数据集上提供了一个新的基准数据集 VID-sentence，并广泛实现了实验结果，表明我们的模型优于基线方法。

Jun, 2019

使用深度递归神经网络将视频翻译为自然语言

本篇论文提出直接利用统一深度神经网络将视频转换为句子的方法，并通过将知识从含标记种类超过 120 万张图像和带字幕的超过 100,000 张图像中迁移而创建具有大型词汇库的开放域视频句子描述。通过与语言生成度量，主语，动词和宾语预测准确度以及人的评估进行比较，证明本方法的有效性。

Dec, 2014

Video-GroundingDINO: 面向开放词汇的时空视频定位

该研究论文介绍了一种开放式语义和语境视频定位模型，通过使用预训练的空间定位模型，克服了固定词汇和有限训练数据的限制，取得了在闭合式和开放式语境下的卓越性能。

Dec, 2023