基于提议的时间动作定位与点级监督
通过引入对比学习,并将背景帧作为难负样本,提出了一种独立于现有 Temporal Action Localization(TAL)网络架构的边界感知候选生成方法(BAPG),用于改善 TAL 的性能。在 THUMOS14 和 ActivityNet-1.3 数据集上的实验结果表明,BAPG 能够显著提升 TAL 的性能。
Sep, 2023
通过引入一种新的方法 (T3AL),该方法对 Temporal Action Localization (TAL) 进行 Test-Time adaptation,并采用自我监督学习的启发式程序进行动作区域定位,使用最先进的字幕模型提取的帧级文本描述进一步完善动作区域提案,实验证明 T3AL 在 THUMOS14 和 ActivityNet-v1.3 数据集上明显优于基于最先进视觉语言模型的零样本方法,证实了测试时间自适应方法的益处。
Apr, 2024
通过子动作原型学习框架,包括子动作原型聚类和有序原型对齐,提出了一种弱监督时间动作定位方法,从对齐结果中生成伪标签来改善动作边界预测,并在三个流行基准测试中显著超越现有最优方法。
Sep, 2023
该论文提出一种基于点监督的行为识别方法,利用无监督的时空提案提取视频中的候选区域,并通过稀疏的点注释指导模型训练,在测试时通过伪点对提案进行筛选,实验结果表明该方法在行为识别上与传统的注释方法不相上下,且能够更好地应对数据的噪声与稀疏性。
May, 2018
本文提出了一种基于弱监督的时序动作定位框架 AutoLoc, 运用 Outer-Inner-Contrastive (OIC) 损失函数,通过自动发现分段级别监督训练出定位模型,模型在 THUMOS'14 数据集中,IoU 阈值为 0.5 时,平均精度从 13.7% 提高至 21.2%,在 ActivityNet 数据集中,平均精度从 7.4% 提高至 27.3%。
Jul, 2018
研究了针对弱监督下的时空动作定位问题,提出了一种基于提议的多实例学习框架,其中包括环绕对比特征提取模块来抑制具有对比性的短提议、提议完整性评估模块来抑制低质量提议以及实例级别排名一致性损失来实现动作定位。实验结果表明,该方法性能优越。
May, 2023
本文提出了自监督预训练的假动作定位任务(PAL)用于未监督的视频特征编码器的预训练,目的是为了提高时间动作定位任务的性能。与现有的方法相比,PAL 引入了一种时间等价对比学习范例,具有更好的适应性和性能。
Mar, 2022
本研究提出了一种 Action Sensitivity Learning 框架,旨在识别和定位动作示例,并通过轻量级的 Action Sensitivity Evaluator 和 Action Sensitive Contrastive Loss 实现对应的学习和训练。实验结果表明,该框架在多种场景下均优于现有技术,达到了最高的平均 mAP 值。
May, 2023