O-TALC: 应对在线动作分割中过度细分的步骤
本文提出了一种基于弱监督的时序动作定位框架 AutoLoc, 运用 Outer-Inner-Contrastive (OIC) 损失函数,通过自动发现分段级别监督训练出定位模型,模型在 THUMOS'14 数据集中,IoU 阈值为 0.5 时,平均精度从 13.7% 提高至 21.2%,在 ActivityNet 数据集中,平均精度从 7.4% 提高至 27.3%。
Jul, 2018
本文提出了一种弱监督的在线动作分割框架,采用动态规划方法来在线分割流媒体视频,并通过引入 Online-Offline Discrepancy Loss(OODL)优化分割结果的时间一致性,同时仅在训练期间使用多视角帧级一致性作为弱标注来提高精度及减少标注成本,实验结果在烹饪和组装等两个领域的 Breakfast 和 IKEA ASM 数据集中均得到了验证。
Mar, 2022
本文针对时间行为定位(TAL)在不带剪辑的视频中查找特定动作片段方面,深入研究了现有方法在模拟这些阶段时,忽略了它们之间的潜在时间约束。作者提出了 IntraC 和 InterC 两个正则化项,使整个框架可以在端对端优化过程中适应这些潜在约束条件,并在 THUMOS14 和 ActivityNet1.3 两个流行的 TAL 数据集上进行了实验。结果表明,本方法在定量和定性上都优于基线,并且所提出的正则化方法还可以推广到其他 TAL 方法(例如,TSA-Net 和 PGCN)。
Feb, 2020
该论文提出了一种基于增强学习的端到端流媒体视频时态行为分割方法 (SVTAS-RL),它将时态行为分割任务作为一种行为段聚类任务,通过引入强化学习来缓解优化目标和方向不一致的问题,实验结果表明 SVTAS-RL 模型在多个数据集上与最先进的时态行为分割模型相媲美,并在超长视频数据集 EGTEA 上展示出更大的优势,因此该方法能够取代所有当前的时态行为分割模型,尤其适用于长视频时态行为分割任务。
Sep, 2023
我们提出了一种名为 OTAS 的无监督框架,通过探索局部特征的优点,实现了时域行为分割,并通过自监督全局和局部特征提取模块以及边界选择模块,融合特征并检测行为分割的显著边界。在实验中,我们发现 OTAS 相对于推荐的 F1 分数平均提高了 41%,甚至在用户研究中优于人工标注的地面真值,并且 OTAS 具备实时推理能力。
Sep, 2023
本研究提出了一个深度学习框架,可实时进行多个时空动作的本地化、分类和早期预测,通过实时的 SSD 卷积神经网络进行回归和分类检测,再通过一个高效的在线算法构建和标记动作管道以进行实时分析,对于 S/T 动作本地化和早期动作预测在 UCF101-24 和 J-HMDB-21 测试基准中均取得了最新的最佳结果,即使与顶级离线竞争对手相比,我们的系统也可以实现 40fps 的在线 S/T 动作本地化和早期动作预测,本文是首个实现此功能的实时系统。
Nov, 2016
本文提出了 OpenTAL 框架,以 Evidential Deep Learning 为基础解决了开放场景下不可避免的未知动作问题,该框架由三个方面组成:具有不确定性的动作分类、动作性预测和时间位置回归,实验结果证明了该方法的有效性。
Mar, 2022
提出了一种用于点级别监督时序动作定位的新方法,通过生成和评估具有灵活时长的动作提案来定位动作,利用聚类算法生成密集伪标签提供更强的监督,并利用精细的对比损失进一步提高伪标签的质量,实验证明该方法在多个基准数据集上达到了与最先进方法相媲美甚至更好的性能。
Oct, 2023
本文提出了一种新颖的无监督活动分割方法,该方法使用视频帧聚类作为预文本任务,并同时执行表示学习和在线聚类。通过使用时间最优传输来利用视频中的时间信息,同时,在计算伪标签聚类分配的标准最优传输模块中加入保留活动时间顺序的时间正则化项。与之前的方法相比,我们的方法不需要在离线模式下存储整个数据集的特征,而是以在线模式每次处理一个小批量。 extensive evaluations on three public datasets, i.e. 50-Salads, YouTube Instructions, and Breakfast, and our dataset, i.e., Desktop Assembly, show that our approach performs on par with or better than previous methods, despite having significantly less memory constraints.
May, 2021