多模式学习:通过顺序阅读未修剪视频实现动作识别
提出一种新的基于弱监督框架,通过利用注意力机制定位动作帧同时识别未修剪视频中的动作,利用修剪视频中的信息传递知识来提高分类性能。在 THUMOS14 和 ActivityNet1.3 上经过广泛的实验,实验证明了该方法的有效性。
Feb, 2019
本文提出了一种基于视觉和时间嵌入空间的非监督学习方法,在不需要手动注释的情况下,通过连续的视频帧中存在的视觉线索,成功地检测到相关的行动群簇,并且适用于时间分割任务。
Jan, 2020
本文提出了一种利用少量样本实现在长视频中定位动作的方法,通过新的三维卷积神经网络,结合相互增强、逐步对齐和成对匹配等模块,成功地对单一或多个动作实例的长视频进行了精准定位。
Aug, 2020
该研究提出了一种基于连续时间嵌入的无监督学习方法,通过鉴别视觉序列中课程的聚类段以实现发现非结构化视频中的动作。该方法被评估在三个数据集上,可以适用于未知情景下的视觉内容分析
Apr, 2019
提出了一种基于磁盘聚类的统一框架,它可以处理和结合不同类型的较低需求的弱监督,从视频中监测时空活动,并将其应用于训练设置中的不同类型的监督信号实验结果证明:该模型在 UC101-24 和 DALY 数据集上具有竞争性能,而且与之前的方法相比,使用的监督信号更少。
Jun, 2018
本文提出了一种基于弱监督学习的人类行为学习方法,通过视频的文字形式来推断其中涉及的行为,并能在没有帧级别标注的情况下学习相关的行为模型;该方法在四个活动数据集上进行了评估,证明了其高效性和竞争力。
Oct, 2016
本文介绍了一种新的弱监督架构,称为 UntrimmedNet,它可以直接从未剪辑的视频中学习动作识别模型,无需动作实例的时间注释。我们的 UntrimmedNet 通过两个重要组件实现,分类模块和选择模块,分别用于学习动作模型和推理动作实例的时间持续性。虽然我们的 UntrimmedNet 仅采用弱监督,但我们的方法在 THUMOS14 和 ActivityNet 两个数据集上的性能优于或可与那些强监督方法相媲美。
Mar, 2017
本文介绍了一种轻量级的 “剪辑采样” 模型,可在长视频中高效识别最显著的时间片段,将行动识别的计算成本显著降低,同时提高识别准确性。
Apr, 2019
本文提出了一种基于视频级别标签进行训练的视频动作识别模型,该模型利用大型图像数据集中训练的逐帧人物检测器,在多实例学习框架内实现。此外,我们使用新的概率多实例学习方法来估计每个预测的不确定性,并在 AVA 数据集上取得了第一个弱监督结果,在 UCF101-24 上获得了弱监督方法的最新成果。
Jul, 2020