本研究采用弱监督和跨领域转移学习的方法,结合深度卷积神经网络和长短时记忆网络,实现从未剪辑的网络视频中,对于精细的动作定位识别,并使用大量的数据集如 FGA-240 和 THUMOS 2014,得到了令人信服的结果。
Apr, 2015
本文介绍了一种弱监督的时间动作定位方法,该方法只需要视频级别的动作实例作为训练数据,在视频的每个片段中生成行为标签,并学习不同动作实例之间的相似性,实验表明该方法在两个视频数据集上取得了有竞争力的结果。
Jan, 2020
我们介绍了 DeepLocalization,这是一个创新的框架,专门用于实时监测驾驶行为的定位。通过利用先进的深度学习方法,我们旨在解决分散注意力驾驶这一导致道路事故的严重问题。我们的策略采用了两个方法:利用基于图的变点检测来确定行为的时间点,以及使用视频大型语言模型 (Video-LLM) 来准确分类活动。通过精心的提示工程,我们定制了视频大型语言模型,以处理驾驶活动的微妙之处,确保在稀疏数据情况下的分类效果。我们的框架经过轻量级优化,能够在消费级 GPU 上应用广泛。我们在 SynDD2 数据集上对我们的方法进行了严格测试,这是一个评估分散驾驶行为的复杂基准,结果显示出显着的性能,事件分类准确率为 57.5%,事件检测准确率为 51%。这些结果突显了 DeepLocalization 在准确识别不同驾驶行为及其时间发生的潜力,同时适用于有限的计算资源。
Apr, 2024
该篇论文提出了一种利用卷积神经网络进行弱监督时间动作定位的算法,其通过学习视频级别的类标签来预测人类动作的时间区间,利用注意力模块鉴别与目标动作有关的重要片段,并通过自适应时间池化融合这些关键片段,同时在损失函数中考虑视频级别的动作分类误差和这些关键片段的稀疏性,利用类别激活和类别无关的注意力在推断时提取和评分时间建议,以估计与目标动作对应的时间区间,在 THUMOS14 数据集上取得了最先进的结果,并具有卓越的 ActivityNet1.3 性能。
Dec, 2017
该研究提出了一种有效的管道来学习更好的伪标签,其中含有高斯加权融合模块,伪标签作为一个在约束条件下的优化问题,以及 Delta 伪标签的概念,实现了超出现有方法的优越表现。
Apr, 2023
提出一种利用半监督学习方法,结合已标注和未标注数据对视频行为检测进行改进的方法,其中使用分类一致性和时空一致性约束,提出了两个新的正则化约束条件,即时间相关性和梯度平滑性,以处理视频中存在的背景和固定区域,进而实现更好的检测效果。在 UCF101-24 数据集上,仅仅使用已标注数据的 20%,该方法就比最近的完全监督式方法提高了 8.9%和 11%,且在 Youtube-VOS 上的视频对象分割上也表现出了很好的泛化能力。
Mar, 2022
提出了一种基于磁盘聚类的统一框架,它可以处理和结合不同类型的较低需求的弱监督,从视频中监测时空活动,并将其应用于训练设置中的不同类型的监督信号实验结果证明:该模型在 UC101-24 和 DALY 数据集上具有竞争性能,而且与之前的方法相比,使用的监督信号更少。
Jun, 2018
该研究旨在通过将视频动作识别和 2D 人体姿势估计网络结合为一个模型,改善时间定位和分类准确性表现。最终,通过从不同的摄像头视角获取信息并消除误报,该模型在 2023 年 NVIDIA AI 城市挑战的自然驾驶行为识别中表现出色,实现了优化的区域覆盖得分 0.5079。
Mar, 2024
本文提出了一种新的方法学框架 ——DeepSegmenter,该框架同时在单个框架中执行活动分割和分类,以识别驾驶员的异常驾驶行为,并在 2023 年 AI 城市挑战赛的实验验证数据中取得了 0.5426 的活动重叠得分,证明了该系统的有效性、高效性和稳健性。
本文提出利用时态梯度提升多模态特征提取以改善在少量标记数据情况下的半监督视频动作识别,方法在多个半监督设置中均取得了最先进的结果。
Nov, 2021