从句子中分离演员和动作的视频分割

CVPRMar, 2018

从句子中分离演员和动作的视频分割

Actor and Action Video Segmentation from a Sentence

Kirill Gavrilyuk, Amir Ghodrati, Zhenyang Li, Cees G.M. Snoek

TL;DR该研究旨在实现对视频内容中演员和他们的动作进行像素级别的分割。通过自然语言输入句子推断分割，以实现在同一超级类别中对精细的演员进行区分，并识别演员和动作实例，以及分割超出演员和动作词汇的成对内容。提出了一种用于视频像素级别的演员和动作分割的全卷积模型，采用编码器 - 解码器结构进行优化。扩展了两个流行的演员和动作数据集，并添加了超过 7,500 个自然语言描述，展示了基于句子的分割的潜力、我们模型的泛化能力和其与现有技术相比在传统演员和动作分割方面的优势。

Abstract

This paper strives for pixel-level segmentation of actors and their actions in video content. Different from existing works, which all learn to segment from a fixed vocabulary of →

video content pixel-level segmentation natural language input actor action

发现论文，激发创造

文本视频分割的演员和行为模块化网络

本文提出了一种基于文本的视频分割方法，通过引入一个新的演员和动作的模块化网络，解决了语义不对称问题，同时提出了时间提案聚合机制，获得了单帧分割和全视频分割的最先进性能。

Nov, 2020

区域掩模的演员 - 动作语义分割

本文提出了一种基于区域的演员 - 动作语义分割方法，通过实例分割算法的区域掩模，避免对掩模内的像素进行独立标记，达到了一致的动作标记并在 A2D 数据集上得到了显著的性能提升。

Jul, 2018

带有分组过程模型的演员 - 动作语义分割

提出了一种新模型，将局部标签 CRFs 与分层的图像超像素分解相结合，以在视频理解的问题中提高其有效性，该模型动态地连续在推理过程中交换信息并有助于提高高阶组的能力，在最新的大规模视频数据集上表现出相对良好的改进。

Dec, 2015

通过观察和叙述学习动作分割

应用叙述指导下的生成式分段模型，重点研究在无监督和弱监督设置中进行视频动作分割，发现任务结构和叙述语言在训练中被用作监督来源有利于提高分割质量.

May, 2020

基于语音查询的视频角色空间 - 时间协同建模分割

本文提出了一种基于协作的时空编码器 - 解码器框架，其中包含一个三维时间编码器和一个二维空间编码器。在解码器中，提出了一种语言引导的特征选择模块和一种交叉模态适应调制模块，以动态重新组合语言特征和时空相关特征。与以往的方法相比，我们的方法在两个流行的基准测试中实现了新的最先进性能，并且计算开销更小。

May, 2021

Speech2Action：跨模态监督下的行为识别

本研究使用 BERT 基于对电影剧本的分析，研究了语音的文字转录以及行动之间的关联，训练了一个 Speech2Action 分类器，并在 188M 个片段的不带标签的电影语音数据上应用了该模型，获得了超过 800K 个视频片段的弱标签，最终通过使用这些标签标记的数据进行训练，在不使用单个手动标记行动示例的情况下，在标准动作识别基准测试上展现出卓越的行动识别表现。

Mar, 2020

时间动作分割的活动语法

通过引入有效的活动语法，本文提出了一种新颖的语法归纳算法，可以从动作序列数据中提取强大的无上下文语法，并开发了一种高效的广义解析器，根据归纳的语法和递归规则将帧级概率分布转化为可靠的动作序列。实验结果表明，我们的方法在两个标准基准评估 Breakfast 和 50 Salads 上在性能和可解释性方面显著提高了时序动作分割。

Dec, 2023

连续时间嵌入的无监督动作类别学习

该研究提出了一种基于连续时间嵌入的无监督学习方法，通过鉴别视觉序列中课程的聚类段以实现发现非结构化视频中的动作。该方法被评估在三个数据集上，可以适用于未知情景下的视觉内容分析

Apr, 2019

无监督视频集合中的语义行为发现

通过视觉和语言提示的联合生成模型，对互联网上海量的指示视频进行语义步骤解析，为每个语义步骤和视频段提供文本描述。大量的 YouTube 视频验证了该方法能够准确发现各种任务的语义正确指示。

May, 2016

演员监督的时空动作定位

本文介绍一种视频动作时空本地化的方法，着重于弱监督学习，只需要视频类标签即可。利用演员在动作中的变换特性，引入基于演员提议的算法及注意力机制，对三个行为数据集进行测试，实验结果表明，该方法在弱监督下可以实现与一些强监督学习相当的性能。

Apr, 2018