背景点击监督下的时间动作定位
该研究提出了一种潜在方法,利用注意力模型进行弱监督学习,其可以检测出影片中的动作,而无需特定类别的标签, 并利用弱监督学习进行比较准确的学习和定位,成功地应用于 Instagram 中的不加筛选的视频之间。
Aug, 2019
本研究基于 BaSNet 的 WS-TAL 任务使用 MIL 训练了 Local-Global Background Modeling Network(LGBM-Net)模型,通过集成多个模型获得最终检测结果,测试集 mAP 达到 22.45%。
Jun, 2021
本文提出了一种基于弱监督的时序动作定位框架 AutoLoc, 运用 Outer-Inner-Contrastive (OIC) 损失函数,通过自动发现分段级别监督训练出定位模型,模型在 THUMOS'14 数据集中,IoU 阈值为 0.5 时,平均精度从 13.7% 提高至 21.2%,在 ActivityNet 数据集中,平均精度从 7.4% 提高至 27.3%。
Jul, 2018
本文提出背景抑制网络 (BaS-Net) 来解决仅具备视频层级标签、而没有帧级标签的弱监督时序动作定位问题;该网络结构采用两个分支和非对称训练策略来抑制背景帧的激活,有效地提高了动作的定位表现。实验验证表明,BaS-Net 在 THUMOS'14 和 ActivityNet 等基准测试上的表现优于当前最先进的方法。
Nov, 2019
提出了一种用于点级别监督时序动作定位的新方法,通过生成和评估具有灵活时长的动作提案来定位动作,利用聚类算法生成密集伪标签提供更强的监督,并利用精细的对比损失进一步提高伪标签的质量,实验证明该方法在多个基准数据集上达到了与最先进方法相媲美甚至更好的性能。
Oct, 2023
通过学习两个特征子空间(分别专门用于行为和背景)并利用时空运动预测来促进两个特征子空间的学习,本文提出了一种解决弱监督时间动作本地化的方法,该方法在 THUMOS14、ActivityNet v1.2 和 v1.3 数据集上优于现有的 WS-TAL 方法。
Mar, 2021
该论文提出了一种新的关于背景帧的观点,在这个观点中,背景帧是关于其不一致性的离群样本,通过学习不确定性,背景帧可以被检测出来,而这种不确定性的学习是通过多实例学习实现的,进一步引入了一个背景熵损失以更好地鉴别背景帧。研究表明,我们的不确定性建模可以有效地减轻背景帧的干扰,并且在 THUMOS'14 和 ActivityNet(1.2 和 1.3)基准测试上取得了明显优于最先进方法的性能表现。
Jun, 2020
本文介绍了一种弱监督的时间动作定位方法,该方法只需要视频级别的动作实例作为训练数据,在视频的每个片段中生成行为标签,并学习不同动作实例之间的相似性,实验表明该方法在两个视频数据集上取得了有竞争力的结果。
Jan, 2020
传统弱监督时间行动定位方法对于无标签的视频背景容易出现定位错误,本文提出了一种利用无标签背景的 Temporal Smoothing PCA-based deconfounder 方法,通过消除视觉识别中无法观测的混淆因素来改进弱监督方法,在 THUMOS-14 和 ActivityNet-1.3 两个公共数据集上实现了显著的改进。
Mar, 2021