面向主题的视频字幕生成

Dec, 2023

Subject-Oriented Video Captioning

Yunchuan Ma, Chang Teng, Yuankai Qi, Guorong Li, Laiyu Qing...

TL;DR通过对用户兴趣的主题进行视频描述一直是一个长期目标。为了解决这个问题，我们提出了一种新的视频字幕任务，即面向主题的视频字幕，允许用户通过边界框指定描述的目标。为了支持这个任务，我们基于两个广泛使用的视频字幕数据集 MSVD 和 MSRVTT 构建了两个面向主题的视频字幕数据集，通过为每个字幕中的每个视频注释主题。这些数据集为未来的技术发展铺平了道路。作为第一个尝试，我们评估了四种最先进的通用视频字幕模型，并观察到了较大的性能下降。然后，我们探索了几种策略使它们能够描述所需的目标。实验结果显示出明显的改进，但在这个领域还有很大的探索空间。

Abstract

Describing video content according to users' needs is a long-held goal. Although existing video captioning methods have made significant progress, the generated captions may not focus on the entity that users are particularly interested in. To address this problem, we propose a new video captioning task, →

subject-oriented video captioning bounding box video captioning datasets performance drop target description

发现论文，激发创造

多面向注意力的视频字幕生成

本文提出了一种新的视频字幕生成方法，利用多种视觉特征和语义属性的层次，采用 LSTM 网络进行句子生成，实现自动选取最突出的视觉特征或语义属性，有望提高字幕生成的精确度。实验结果表明，该框架胜过现有最先进的方法，并可进一步提升精度至近于人类水平。

Dec, 2016

视频摘要：朝向实体感知字幕

在这篇论文中，我们提出了直接生成有实体感知能力的新闻视频标题的任务，并发布了一个大规模数据集 VIEWS (VIdeo NEWS) 以支持该任务的研究。同时，我们还提出了一种方法，通过从外部世界知识中检索到的上下文来增强视频中的视觉信息，以生成具有实体感知能力的标题。通过在三个视频字幕模型上的广泛实验和见解，我们证明了我们方法的有效性，并且展示了我们的方法能够推广到现有的新闻图像字幕数据集。相信我们为这一具有挑战性的任务奠定了坚实的研究基础。

Dec, 2023

用户生成视频的标题生成

本研究提出了两种方法扩展现有视频的字幕生成模型以生成视频标题，即通过高亮检测器使视频字幕生成模型具有敏感性并同时进行标题生成和视频亮点定位训练，以及通过增强句子多样性，用大量无对应视频的句子训练模型，并在 18100 个用户生成的视频和标题（VTW）数据集和 M-VAD 数据集上验证了本研究的方法，均获得了最佳效果。

Aug, 2016

视频字幕的分层模块化网络

本文提出了一种分层的模块化网络来连接视频表示和语言语义，从实体级别、谓词级别和句子级别三个层次生成视频字幕，并在 MSVD 和 MSR-VTT 基准测试中表现优异。

Nov, 2021

超越字幕到叙事：视频多句子字幕

本研究提出了一种视频片段分割、多帧生成多个盛传、并采用自然语言技术将其连接成故事式视频字幕的方法，实现丰富内容的视频字幕生成，结果表明该方法不需要显式输入视频级别特征即可提供丰富内容，与最新技术方法相同。

May, 2016

使用视频和蕴含生成的多任务视频字幕生成

通过多任务学习模型，结合无监督视频预测和语言蕴涵生成任务，共享参数学习提取更丰富的视频编码器表示和更好的视频 - 标题解码器表示，显著提高视频字幕生成的性能，达到了多个标准数据集的最新水平。

Apr, 2017

使用主题引导生成视频描述

本文提出了一种基于主题导向模型 (TGM) 的视频描述生成模型，同时采用网络爬取的分类标签和无监督话题挖掘模型中的数据驱动话题挖掘来生成面向主题的视频描述。在当前最大的视频字幕数据集 MSR-VTT 上，我们的模型显著超过了 2016 年 MSR 视频到语言挑战赛的获胜表现。

Aug, 2017

基于实况视频描述

该文介绍了利用视频中物体的 bounding box 将描述影片的句子与影片中的客观证据联系起来，并给出了一个能够利用 bounding box 的词语注释的视频描述模型，其在视频描述、视频段落描述和图像描述上均表现出了最先进的性能和更好的联系性。

Dec, 2018

视频字幕的判别性潜在语义图

该研究提出了一种联合框架解决视频自动生成字幕中的三个关键问题，包括融合时空信息增强物体建议、动态提取高语义级别的视觉词，以及生成字幕验证确保语义概念的有效保留。实验表明该方法在各种评价指标上都显著优于现有的自然语言生成模型。

Aug, 2021

O2NA：一种用于可控视频字幕生成的面向对象非自回归方法

本文介绍了一种基于物体的非自回归方法 (O2NA) 用于视频字幕生成，它包括确定聚焦对象，生成草案字幕，以及将视频信息与草案字幕结合以生成最终流畅字幕等步骤，实验结果表明 O2NA 在 MSR-VTT 和 MSVD 两个基准数据数据集上具有与现有最先进技术相当的结果，但具有更高的多样性和推理速度。

Aug, 2021