多模式学习：通过顺序阅读未修剪视频实现动作识别

Jan, 2024

多模式学习：通过顺序阅读未修剪视频实现动作识别

Multi-model learning by sequential reading of untrimmed videos for action recognition

Kodai Kamiya, Toru Tamaki

TL;DR提出了一种通过从未修剪的视频中顺序提取视频片段来聚合多个模型的学习视频的新方法。实验结果表明，与无同步相比，该方法改善了性能。

Abstract

We propose a new method for learning videos by aggregating multiple models by sequentially extracting video clips from →

learning videos aggregating multiple models video clips untrimmed video federated learning

发现论文，激发创造

使用弱监督为未修剪视频中的行动识别学习可转移的自我关注表示

提出一种新的基于弱监督框架，通过利用注意力机制定位动作帧同时识别未修剪视频中的动作，利用修剪视频中的信息传递知识来提高分类性能。在 THUMOS14 和 ActivityNet1.3 上经过广泛的实验，实验证明了该方法的有效性。

Feb, 2019

非修剪序列中无监督行为学习的联合视觉 - 时间嵌入

本文提出了一种基于视觉和时间嵌入空间的非监督学习方法，在不需要手动注释的情况下，通过连续的视频帧中存在的视觉线索，成功地检测到相关的行动群簇，并且适用于时间分割任务。

Jan, 2020

几个视频中的共同动作定位

本文提出了一种利用少量样本实现在长视频中定位动作的方法，通过新的三维卷积神经网络，结合相互增强、逐步对齐和成对匹配等模块，成功地对单一或多个动作实例的长视频进行了精准定位。

Aug, 2020

从未修剪的视频中单时间戳监督的动作识别

使用单个时间戳代替昂贵的包含行动界限的监督信息，通过不断更新采样分布，进而使其收敛至判别性行动段的位置和范围，从而取得良好的视觉识别效果。

Apr, 2019

连续时间嵌入的无监督动作类别学习

该研究提出了一种基于连续时间嵌入的无监督学习方法，通过鉴别视觉序列中课程的聚类段以实现发现非结构化视频中的动作。该方法被评估在三个数据集上，可以适用于未知情景下的视觉内容分析

Apr, 2019

一种灵活的动作定位训练模型，具有不同程度的监督

提出了一种基于磁盘聚类的统一框架，它可以处理和结合不同类型的较低需求的弱监督，从视频中监测时空活动，并将其应用于训练设置中的不同类型的监督信号实验结果证明：该模型在 UC101-24 和 DALY 数据集上具有竞争性能，而且与之前的方法相比，使用的监督信号更少。

Jun, 2018

基于语言文本的弱监督动作学习

本文提出了一种基于弱监督学习的人类行为学习方法，通过视频的文字形式来推断其中涉及的行为，并能在没有帧级别标注的情况下学习相关的行为模型；该方法在四个活动数据集上进行了评估，证明了其高效性和竞争力。

Oct, 2016

用于弱监督行为识别和检测的 UntrimmedNets

本文介绍了一种新的弱监督架构，称为 UntrimmedNet，它可以直接从未剪辑的视频中学习动作识别模型，无需动作实例的时间注释。我们的 UntrimmedNet 通过两个重要组件实现，分类模块和选择模块，分别用于学习动作模型和推理动作实例的时间持续性。虽然我们的 UntrimmedNet 仅采用弱监督，但我们的方法在 THUMOS14 和 ActivityNet 两个数据集上的性能优于或可与那些强监督方法相媲美。

Mar, 2017

SCSampler：用于高效行为识别的视频显著片段采样

本文介绍了一种轻量级的 “剪辑采样” 模型，可在长视频中高效识别最显著的时间片段，将行动识别的计算成本显著降低，同时提高识别准确性。

Apr, 2019

从未剪辑的视频中识别不确定动作

本文提出了一种基于视频级别标签进行训练的视频动作识别模型，该模型利用大型图像数据集中训练的逐帧人物检测器，在多实例学习框架内实现。此外，我们使用新的概率多实例学习方法来估计每个预测的不确定性，并在 AVA 数据集上取得了第一个弱监督结果，在 UCF101-24 上获得了弱监督方法的最新成果。

Jul, 2020