RefineLoc: 弱监督行动定位的迭代改进
本文介绍了一种弱监督的时间动作定位方法,该方法只需要视频级别的动作实例作为训练数据,在视频的每个片段中生成行为标签,并学习不同动作实例之间的相似性,实验表明该方法在两个视频数据集上取得了有竞争力的结果。
Jan, 2020
提出了一个基于三阶段框架的行动定位方法,包括一个 Actionness 神经网络来生成初始提议,一个 Refinement 网络来进行边界调整,以及一个 Localization 网络进行精细定位回归。在 THUMOS14 基准测试中表现优异,尤其是在高 IoU 阈值下的精确定位方面表现出色,mAP@IoU=0.5 达到 34.2%。
Apr, 2018
该篇论文提出了一种利用卷积神经网络进行弱监督时间动作定位的算法,其通过学习视频级别的类标签来预测人类动作的时间区间,利用注意力模块鉴别与目标动作有关的重要片段,并通过自适应时间池化融合这些关键片段,同时在损失函数中考虑视频级别的动作分类误差和这些关键片段的稀疏性,利用类别激活和类别无关的注意力在推断时提取和评分时间建议,以估计与目标动作对应的时间区间,在 THUMOS14 数据集上取得了最先进的结果,并具有卓越的 ActivityNet1.3 性能。
Dec, 2017
本文提出了一种基于弱监督的时序动作定位框架 AutoLoc, 运用 Outer-Inner-Contrastive (OIC) 损失函数,通过自动发现分段级别监督训练出定位模型,模型在 THUMOS'14 数据集中,IoU 阈值为 0.5 时,平均精度从 13.7% 提高至 21.2%,在 ActivityNet 数据集中,平均精度从 7.4% 提高至 27.3%。
Jul, 2018
该研究提出了一种代表性摘要和传播框架,通过在视频中挖掘代表性片段来传播信息以生成更好的伪标签,从而解决了分类和定位之间的差异问题,并在 THUMOS14 和 ActivityNet1.3 数据集上取得了比现有方法更好的性能。
Mar, 2022
本文提出了一种基于注意力机制的分层结构潜在模型,用于学习特征语义的时间变化,通过两个组件进行实现:第一个是无监督的变点检测模块,通过在时间层次中学习视频特征的变化率来检测变点;第二个是基于注意力的分类模型,将前景的变点作为边界来选择。通过在两个基准数据集 THUMOS-14 和 ActivityNet-v1.3 上进行广泛实验,结果表明我们的方法优于当前最先进的方法,并且甚至与全监督方法具有可比较的性能。
Aug, 2023
研究了针对弱监督下的时空动作定位问题,提出了一种基于提议的多实例学习框架,其中包括环绕对比特征提取模块来抑制具有对比性的短提议、提议完整性评估模块来抑制低质量提议以及实例级别排名一致性损失来实现动作定位。实验结果表明,该方法性能优越。
May, 2023
本文提出了一种基于视频级别标签进行训练的视频动作识别模型,该模型利用大型图像数据集中训练的逐帧人物检测器,在多实例学习框架内实现。此外,我们使用新的概率多实例学习方法来估计每个预测的不确定性,并在 AVA 数据集上取得了第一个弱监督结果,在 UCF101-24 上获得了弱监督方法的最新成果。
Jul, 2020
该研究提出了一种潜在方法,利用注意力模型进行弱监督学习,其可以检测出影片中的动作,而无需特定类别的标签, 并利用弱监督学习进行比较准确的学习和定位,成功地应用于 Instagram 中的不加筛选的视频之间。
Aug, 2019