复杂操作动作视频的多句描述

Nov, 2023

Multi Sentence Description of Complex Manipulation Action Videos

Fatemeh Ziaeetabar, Reza Safabakhsh, Saeedeh Momtazi, Minija Tamosiunaite, Florentin Wörgötter

TL;DR提出了一种混合统计和端到端框架来解决视频描述中细节级别、操作行为和层次结构的问题，并且定量结果表明这些方法产生的描述比其他竞争方法更真实。

Abstract

automatic video description requires the generation of natural language statements about the actions, events, and objects in the video. An important human trait, when we describe a video, is that we are able to do this with variable levels of detail. Different from this, existing appro

automatic video description detail levels manipulation actions hybrid statistical end-to-end framework

发现论文，激发创造

具有可变细节级别的连贯多句视频描述

本文介绍了一种通过从视频中学习语义表示（SR）并以 SR 为基础来生成多句连贯的自然语言描述的方法，同时也提出了基于手的视觉识别方法以及利用词格进行句子生成的方法，并通过人类评价证明了该方法比现有相关工作能够生成更可读、准确和相关的描述。

Mar, 2014

基于分层图的视频双手动作识别与描述生成方法

将图形模型化与分层分级注意机制相结合的新型方法，提高了视频描述的精确性和完整性，通过在场景图中编码对象和动作之间的时空相互依赖性，再结合 3 级图形注意力网络构建了分层分级的注意机制，从而实现了并行生成具有不同语义复杂性的视频描述，提高了动作识别和描述的准确性。

Oct, 2023

基于分层强化学习的视频字幕生成

本文提出了一种新颖的分层强化学习框架，用于视频字幕生成，该框架让高级管理器模块学习设计子目标，低级工作模块识别基本动作以实现子目标，实验证明我们的方法在细粒度视频字幕生成方面优于其他基线方法，并在已广泛使用的 MSR-VTT 数据集上达到了最佳效果。

Nov, 2017

利用时间结构描述视频

这篇论文提出了一种基于循环神经网络和 3-D 卷积神经网络以及时间注意力机制的视频自动描述方法，并在 Youtube2Text 数据集上的 BLEU 和 METEOR 度量标准上超过了当前最先进的结果，并在更大更具挑战性的配对视频和自然语言描述数据集上进行了测试。

Feb, 2015

超越字幕到叙事：视频多句子字幕

本研究提出了一种视频片段分割、多帧生成多个盛传、并采用自然语言技术将其连接成故事式视频字幕的方法，实现丰富内容的视频字幕生成，结果表明该方法不需要显式输入视频级别特征即可提供丰富内容，与最新技术方法相同。

May, 2016

无监督视频集合中的语义行为发现

通过视觉和语言提示的联合生成模型，对互联网上海量的指示视频进行语义步骤解析，为每个语义步骤和视频段提供文本描述。大量的 YouTube 视频验证了该方法能够准确发现各种任务的语义正确指示。

May, 2016

序列到序列 -- 视频到文本

该文章介绍了一种基于序列到序列模型和 LSTM 的视频描述方法，利用时间结构，将视频帧序列与单词序列相关联来生成视频描述，同时该模型能够学习视频帧的时间结构和所生成句子的语言模型。

May, 2015

多句视频描述的对抗性推理

本研究提出使用对抗技术在推断过程中设计鉴别器来促进更好的多句子视频描述，并提出一个多鉴别器 “混合” 设计，其中每个鉴别器针对说明书的一个方面，以评估三个标准：与视频的视觉相关性、语言多样性和流畅度以及句子间的连贯性。该方法通过对流行的 ActivityNet 字幕数据集进行的自动化以及人工评估表明，能够产生更准确、多样和连贯的多句子视频说明。

Dec, 2018

随心所欲编辑：多粒度命令的视频描述编辑

本文提出了一个新的视频描述编辑任务（VDEdit），旨在通过灵活的用户需求自动修订现有的视频描述。为支持 VDEdit 任务，我们首先自动构建了一个大规模基准数据集 VATEX-EDIT，描述了不同的人类活动。考虑到现实生活中的应用场景，我们还手工收集了一个电子商务基准数据集 EMMAD-EDIT。我们提出了一个统一的框架，将操作，位置，属性三元组转化为文本控制序列以处理多粒度的编辑命令，并采用综合性指标评估 VDEdit 功能。

May, 2023

电影描述的长短故事

本文研究使用图像及视频描述辅助盲人及人机交互的应用。通过使用预训练的对象分类器 CNNs 以及 LSTMs，学习生成描述的算法，并在 MPII-MD 数据集上获得了目前最佳性能。

Jun, 2015