使用深度度量学习进行弱监督时序动作定位
该篇论文提出了一种利用卷积神经网络进行弱监督时间动作定位的算法,其通过学习视频级别的类标签来预测人类动作的时间区间,利用注意力模块鉴别与目标动作有关的重要片段,并通过自适应时间池化融合这些关键片段,同时在损失函数中考虑视频级别的动作分类误差和这些关键片段的稀疏性,利用类别激活和类别无关的注意力在推断时提取和评分时间建议,以估计与目标动作对应的时间区间,在 THUMOS14 数据集上取得了最先进的结果,并具有卓越的 ActivityNet1.3 性能。
Dec, 2017
研究了针对弱监督下的时空动作定位问题,提出了一种基于提议的多实例学习框架,其中包括环绕对比特征提取模块来抑制具有对比性的短提议、提议完整性评估模块来抑制低质量提议以及实例级别排名一致性损失来实现动作定位。实验结果表明,该方法性能优越。
May, 2023
本文提出了一种基于弱监督的时序动作定位框架 AutoLoc, 运用 Outer-Inner-Contrastive (OIC) 损失函数,通过自动发现分段级别监督训练出定位模型,模型在 THUMOS'14 数据集中,IoU 阈值为 0.5 时,平均精度从 13.7% 提高至 21.2%,在 ActivityNet 数据集中,平均精度从 7.4% 提高至 27.3%。
Jul, 2018
本文提出了一种基于注意力机制的分层结构潜在模型,用于学习特征语义的时间变化,通过两个组件进行实现:第一个是无监督的变点检测模块,通过在时间层次中学习视频特征的变化率来检测变点;第二个是基于注意力的分类模型,将前景的变点作为边界来选择。通过在两个基准数据集 THUMOS-14 和 ActivityNet-v1.3 上进行广泛实验,结果表明我们的方法优于当前最先进的方法,并且甚至与全监督方法具有可比较的性能。
Aug, 2023
本文提出了一种半监督学习算法,用于训练时间动作建议网络,能够在只有很少的标签可用时生成比全监督对照组和其他强半监督基线更好的建议,并验证其在两个具有挑战性的动作检测视频数据集 ActivityNet v1.3 和 THUMOS14 上的有效性,表明我们的半监督方法始终与或优于全监督最先进方法。
Oct, 2019
本研究提出了一种基于三种分段 3D 卷积神经网络的方法,用于解决未经修剪的长视频中的时间动作定位问题,其中提出网络用于识别可能包含动作的候选段,分类网络以一对多动作分类模型进行学习以作为定位网络的初始化,用于定位每个动作实例。
Jan, 2016
本论文提出了一种名为 HAM-Net 的新颖框架,该框架采用混合注意机制来解决现有方法中存在的问题,包括对背景活动的建模和完整性的捕捉,实验证明其在多个数据集上均取得了最新的最佳性能。
Jan, 2021
该研究提出了一种潜在方法,利用注意力模型进行弱监督学习,其可以检测出影片中的动作,而无需特定类别的标签, 并利用弱监督学习进行比较准确的学习和定位,成功地应用于 Instagram 中的不加筛选的视频之间。
Aug, 2019
该论文提出了一种新的关于背景帧的观点,在这个观点中,背景帧是关于其不一致性的离群样本,通过学习不确定性,背景帧可以被检测出来,而这种不确定性的学习是通过多实例学习实现的,进一步引入了一个背景熵损失以更好地鉴别背景帧。研究表明,我们的不确定性建模可以有效地减轻背景帧的干扰,并且在 THUMOS'14 和 ActivityNet(1.2 和 1.3)基准测试上取得了明显优于最先进方法的性能表现。
Jun, 2020
提出一种名为 3C-Net 的框架,通过仅使用动作类别标签及其对应数量的视频级监督来学习具有增强本地化能力的判别性动作特征。通过多项联合项来提高动作特征的区分度,以及通过计数损失项来描绘相邻动作序列,从而达到改进本地化的目的,在两个具有挑战性的基准测试中都取得了新的最优效果,代码可在给定链接中找到。
Aug, 2019