使用视频和蕴含生成的多任务视频字幕生成

Apr, 2017

使用视频和蕴含生成的多任务视频字幕生成

Multi-Task Video Captioning with Video and Entailment Generation

Ramakanth Pasunuru, Mohit Bansal

TL;DR通过多任务学习模型，结合无监督视频预测和语言蕴涵生成任务，共享参数学习提取更丰富的视频编码器表示和更好的视频-标题解码器表示，显著提高视频字幕生成的性能，达到了多个标准数据集的最新水平。

Abstract

video captioning, the task of describing the content of a video, has seen some promising improvements in recent years with sequence-to-sequence models, but accurately learning the temporal and logical dynamics in

发现论文，激发创造

超越字幕到叙事: 视频多句子字幕

本研究提出了一种视频片段分割、多帧生成多个盛传、并采用自然语言技术将其连接成故事式视频字幕的方法，实现丰富内容的视频字幕生成，结果表明该方法不需要显式输入视频级别特征即可提供丰富内容，与最新技术方法相同。

May, 2016

视频字幕生成的帧和片段级特征及候选池评估

本研究以编码器-解码器结构为基础，利用不同的视频特征训练了两个分别负责对象和动作信息的输入子域的模型，并采用一个评估模型从这些专业模型生成的候选语句中选择最佳的视频简述，相较于单一模型，该方法更适用于视频简述任务并在MSR视频语言挑战中获得了最佳人工评价的评级和自动评估度量指标的第二名。

Aug, 2016

利用字幕的关注语义视频生成

该研究提出了一种网络架构，利用标题执行可变长度的语义视频生成。网络能够区分视频中的对象，动作和交互，并将它们与长期和短期依赖结合起来，以增量方式生成视频。网络通过学习潜在表示对视频进行无监督生成，并在执行其他任务时表现出了良好的能力，如动作识别和空时样式转移。

Aug, 2017

多任务强化学习的端到端视频字幕生成

该论文提出了一种多任务强化学习的方法，用于训练端到端视频字幕生成模型，其主要思想是从人工字幕视频中挖掘并构建尽可能多的有效任务，以共同调节端到端神经网络的搜索空间，并得到泛化的视频字幕生成模型。实验结果表明，这种模型在两个基准视频字幕数据集上的表现都大大优于现有方法。

Mar, 2018

端到端视频字幕生成

本文提出了采用端到端训练的方法来实现视频描述生成，并在微软研究视频描述数据集 (MSVD) 和微软视频到文本数据集 (MSR-VTT) 上取得了最新的最优表现。

Apr, 2019

多模态视频字幕生成的端到端生成预训练

提出了一种新的预训练框架Multimodal Video Generative Pretraining (MV-GPT)，通过利用未标记视频中的未来话语作为附加文本源并引入双向生成目标，以从生图像和录制语音直接生成说明的端到端模型来有效地生成多模态视频说明。

Jan, 2022

端到端密集视频字幕生成

本文提出一种联合建模的方法，将稠密视频字幕的两个子任务共同作为一个序列生成任务，同时预测事件和相应的描述，并使用YouCook2和ViTT的实验结果表明了该方法的可行性和在大规模预训练模型中集成端到端密集视频字幕等复杂任务中的适用性。

Apr, 2022

基于语义概念引导的多样化视频字幕集预测

通过对影片的多个方面进行描述，我们提出了一种语义概念引导的集合预测方法，其中包含了生成影片描述和预测概念组合的辅助任务，并应用多样性正则化项以鼓励生成具有不同概念组合的语义多样的描述，通过在基准数据集上进行广泛实验，我们的方法在相关性和多样性指标下达到了最先进的性能。

Dec, 2023

基于编码器-解码器的长短期记忆（LSTM）视频字幕模型

本文展示了使用编码-解码模型来实现视频数据到文本字幕的多对多映射的方法，并讨论了数据预处理、模型构建和训练。通过对数据集的不同分割使用2元BLEU分数来评估字幕的准确性。通过特定的输出示例字幕表明模型在视频时间维度上具有通用性。预测的字幕表明在视频动作方面具有普适性，即使在视频场景发生剧烈变化的情况下。还讨论了改进句子语法和准确性的模型架构变化。

Oct, 2023

ShareGPT4Video: 提升视频理解与生成，优化字幕

通过稠密和精确的字幕，在大视频-语言模型（LVLMs）的视频理解和文本-视频模型（T2VMs）的视频生成方面，我们提出了ShareGPT4Video系列，该系列包括40K GPT4V标注的各种长度和来源的视频稠密字幕，通过精心设计的数据过滤和注释策略进行开发，以及有效的任意视频字幕模型ShareCaptioner-Video和卓越的LVLM ShareGPT4Video-8B。

Jun, 2024