该研究提出了一种新的监督预训练范例,通过考虑背景剪辑和全局视频信息,不仅需要训练活动分类,而且还需要训练时序灵敏度,从而显着提高了最近最先进的方法在三个任务中的性能:时间动作本地化,行动建议生成和密集视频字幕。
Nov, 2020
本研究提出了一种文本 - 视频本地化预文本任务,以实现细粒度的时间和语义对齐,从而让训练模型能够准确感知给定文本描述的视频时间边界,并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。
Jan, 2023
本文提出了自监督预训练的假动作定位任务(PAL)用于未监督的视频特征编码器的预训练,目的是为了提高时间动作定位任务的性能。与现有的方法相比,PAL 引入了一种时间等价对比学习范例,具有更好的适应性和性能。
Mar, 2022
本研究提出了一种基于局部到全局思想的 Temporal action proposal 生成方法,命名为 Boundary-Sensitive Network (BSN)。实验结果表明,BSN 在 ActivityNet-1.3 和 THUMOS14 数据集中,相较于其他先进 Temporal action proposal 生成方法,具有高的召回率和高的时间精度。此外,将现有的行动分类器与 BSN 结合使用,能够显著提高时态动作检测性能。
Jun, 2018
本文提出了一种基于无监督自学习框架的视频场景分割算法,采用三种新颖的边界感知预训练任务 (SSM, CGM, PP),重点在于设计有效的预训练任务,通过广泛的实验结果表明,预训练和转移环境表示对于改善视频场景分割性能至关重要,并实现了 MovieNet-SSeg 基准测试的最新最好成绩。
Jan, 2022
本文提出了第一个完全基于无锚点的时间定位方法,该模型通过使用一种基本的可训练推荐器、一个基于显着性的细化模块以及若干一致性约束来实现。实验证明,我们的方法在 THUMOS14 上击败了所有锚点和动作导向方法,取得了最先进的结果,在 ActivityNet v1.3 上取得了可比较的结果。
Mar, 2021
通过引入对比学习,并将背景帧作为难负样本,提出了一种独立于现有 Temporal Action Localization(TAL)网络架构的边界感知候选生成方法(BAPG),用于改善 TAL 的性能。在 THUMOS14 和 ActivityNet-1.3 数据集上的实验结果表明,BAPG 能够显著提升 TAL 的性能。
Sep, 2023
通过边界内功夫解码的无监督预训练框架,将基于骨骼的运动序列分割为语义上有意义的预操作片段,通过对少量注释数据进行微调,我们展示了远远超过 SOTA 方法的结果。
Mar, 2024
提出了一种新的模型 ——Sparse Multilevel Boundary Generator (SMBG),通过边界分类和动作完整性回归来提高边界敏感方法的效率,引入了稀疏特征提取置信度头来优化提议特征生成器,并提出了全局指导损失来改善多支路之间的协同和平衡正负样本,在两个流行的基准 ActivityNet-1.3 和 THUMOS14 上评估,结果表明 SMBG 提供了一种更高效和简单的解决方案,可能会提高计算机视觉领域中视频分析中的时间动作定位的准确度和速度。
Mar, 2023
本文提出了一种面向本地化任务的视频文本预训练框架 LocVTP,通过精细对比对齐和上下文感知等机制,提高了其学到的特征的时空推理能力和传递性,实现了在四个下游任务上的最优表现。
Jul, 2022