几个视频中的共同动作定位

ECCVAug, 2020

Localizing the Common Action Among a Few Videos

Pengwan Yang, Vincent Tao Hu, Pascal Mettes, Cees G. M. Snoek

TL;DR本文提出了一种利用少量样本实现在长视频中定位动作的方法，通过新的三维卷积神经网络，结合相互增强、逐步对齐和成对匹配等模块，成功地对单一或多个动作实例的长视频进行了精准定位。

Abstract

This paper strives to localize the temporal extent of an action in a long untrimmed video. Where existing work leverages many examples with their start, their ending, and/or the class of the action during training time, we propose few-shot common action localization. The start and end

few-shot learning action localization 3d convolutional network support videos progressive alignment

发现论文，激发创造

使用多阶段 CNN 在未修剪的视频中进行时间动作定位

本研究提出了一种基于三种分段 3D 卷积神经网络的方法，用于解决未经修剪的长视频中的时间动作定位问题，其中提出网络用于识别可能包含动作的候选段，分类网络以一对多动作分类模型进行学习以作为定位网络的初始化，用于定位每个动作实例。

Jan, 2016

使用弱监督为未修剪视频中的行动识别学习可转移的自我关注表示

提出一种新的基于弱监督框架，通过利用注意力机制定位动作帧同时识别未修剪视频中的动作，利用修剪视频中的信息传递知识来提高分类性能。在 THUMOS14 和 ActivityNet1.3 上经过广泛的实验，实验证明了该方法的有效性。

Feb, 2019

从未修剪的视频中单时间戳监督的动作识别

使用单个时间戳代替昂贵的包含行动界限的监督信息，通过不断更新采样分布，进而使其收敛至判别性行动段的位置和范围，从而取得良好的视觉识别效果。

Apr, 2019

稀疏时域池化网络弱监督动作定位

该篇论文提出了一种利用卷积神经网络进行弱监督时间动作定位的算法，其通过学习视频级别的类标签来预测人类动作的时间区间，利用注意力模块鉴别与目标动作有关的重要片段，并通过自适应时间池化融合这些关键片段，同时在损失函数中考虑视频级别的动作分类误差和这些关键片段的稀疏性，利用类别激活和类别无关的注意力在推断时提取和评分时间建议，以估计与目标动作对应的时间区间，在 THUMOS14 数据集上取得了最先进的结果，并具有卓越的 ActivityNet1.3 性能。

Dec, 2017

通过从网络图像的域转移，在视频中对细粒度动作进行时间本地化

本研究采用弱监督和跨领域转移学习的方法，结合深度卷积神经网络和长短时记忆网络，实现从未剪辑的网络视频中，对于精细的动作定位识别，并使用大量的数据集如 FGA-240 和 THUMOS 2014，得到了令人信服的结果。

Apr, 2015

非修剪序列中无监督行为学习的联合视觉 - 时间嵌入

本文提出了一种基于视觉和时间嵌入空间的非监督学习方法，在不需要手动注释的情况下，通过连续的视频帧中存在的视觉线索，成功地检测到相关的行动群簇，并且适用于时间分割任务。

Jan, 2020

基于隐式时间对齐和成对相似度优化的小样本动作识别

本研究提出了一种基于 LSTM 的 few-shot 动作识别框架，采用了特定的评估设置，隐式序列对齐算法以及新的优化方法，通过在少量数据上最大化同类样本的相似性并最小化不同类之间的相似性来实现 few-shot 动作识别。实验表明，该方法在两个数据集上均取得了较好的效果。

Oct, 2020

基于时间提案演化的精准时间动作定位

提出了一个基于三阶段框架的行动定位方法，包括一个 Actionness 神经网络来生成初始提议，一个 Refinement 网络来进行边界调整，以及一个 Localization 网络进行精细定位回归。在 THUMOS14 基准测试中表现优异，尤其是在高 IoU 阈值下的精确定位方面表现出色，mAP@IoU=0.5 达到 34.2%。

Apr, 2018

连续时间嵌入的无监督动作类别学习

该研究提出了一种基于连续时间嵌入的无监督学习方法，通过鉴别视觉序列中课程的聚类段以实现发现非结构化视频中的动作。该方法被评估在三个数据集上，可以适用于未知情景下的视觉内容分析

Apr, 2019

置换不变注意力的小样本动作识别

本文提出一种基于 C3D 编码器和置换不变池化的模型，针对视频的少样本动作识别任务，通过性质相似的原始视频块以及注意力机制，使其适用于不同长度和长期依赖模式的变化，同时在 HMDB51、UCF101 和 miniMIT 数据集上表现良好。

Jan, 2020