我们提出了一种弱监督的框架,用于视频中的动作标注,其中只在训练时间需要发生动作的顺序。通过引入扩展的连接组态分类(ECTC)框架来解决每帧对齐的问题,从而有效地评估所有可能的对齐。我们进一步将我们的框架扩展到在视频中稀疏地注释了一些帧的半监督情况下。使用不到 1%的标记帧数的情况下,我们的方法能够胜过现有的半监督方法,并实现与完全监督方法相当的性能。
Jul, 2016
本文介绍了一种弱监督的时间动作定位方法,该方法只需要视频级别的动作实例作为训练数据,在视频的每个片段中生成行为标签,并学习不同动作实例之间的相似性,实验表明该方法在两个视频数据集上取得了有竞争力的结果。
Jan, 2020
该研究提出了一种代表性摘要和传播框架,通过在视频中挖掘代表性片段来传播信息以生成更好的伪标签,从而解决了分类和定位之间的差异问题,并在 THUMOS14 和 ActivityNet1.3 数据集上取得了比现有方法更好的性能。
Mar, 2022
该研究提出了一种名为双向语义一致性约束的方法来改善当前弱监督下的视频分类及定位发现问题。该方法采用时间相关增强来打破正样本动作与其 co-scene 动作之间的相关性,通过语义一致性约束来获得足够的信息区分两者,从而较好地应用于当前的 WTAL 方法,并且在 THUMOS14 和 ActivityNet 数据集上取得了较好的性能。
Apr, 2023
该研究提出了一种有效的管道来学习更好的伪标签,其中含有高斯加权融合模块,伪标签作为一个在约束条件下的优化问题,以及 Delta 伪标签的概念,实现了超出现有方法的优越表现。
研究了针对弱监督下的时空动作定位问题,提出了一种基于提议的多实例学习框架,其中包括环绕对比特征提取模块来抑制具有对比性的短提议、提议完整性评估模块来抑制低质量提议以及实例级别排名一致性损失来实现动作定位。实验结果表明,该方法性能优越。
May, 2023
本论文旨在提高弱监督行动定位任务的性能,通过设计了 Fine-grained Sequence Distance(FSD)对比和 Longest Common Subsequence(LCS)对比两个互补型对比模块(Contrastive Objectives),解决了现有方法中分类学习与本地化学习之间的严重模糊性问题。
提出一种名为 3C-Net 的框架,通过仅使用动作类别标签及其对应数量的视频级监督来学习具有增强本地化能力的判别性动作特征。通过多项联合项来提高动作特征的区分度,以及通过计数损失项来描绘相邻动作序列,从而达到改进本地化的目的,在两个具有挑战性的基准测试中都取得了新的最优效果,代码可在给定链接中找到。
Aug, 2019
该论文提出了一种仅使用视频级标签的弱监督时序活动定位与分类框架,利用相关性来实现活动的时序定位,并在 Thumos14 和 ActivityNet1.2 数据集上实现了比当前最先进方法更好的性能。
Jul, 2018
该篇论文提出了一种利用卷积神经网络进行弱监督时间动作定位的算法,其通过学习视频级别的类标签来预测人类动作的时间区间,利用注意力模块鉴别与目标动作有关的重要片段,并通过自适应时间池化融合这些关键片段,同时在损失函数中考虑视频级别的动作分类误差和这些关键片段的稀疏性,利用类别激活和类别无关的注意力在推断时提取和评分时间建议,以估计与目标动作对应的时间区间,在 THUMOS14 数据集上取得了最先进的结果,并具有卓越的 ActivityNet1.3 性能。
Dec, 2017