基于边界感知查询投票的高效时间动作分割
本文提出了一种名为 ASFormer 的高效 Transformer 模型,通过加入局部连接归纳先验、应用预定的分层表示模式和精心设计的解码器来解决应用 Transformer 模型于动作分割任务时遇到的问题,并在三个公共数据集上进行了广泛实验。
Oct, 2021
本研究提出了一种新的弱监督动作分割方法,通过直接定位几个动作转换来生成伪分割,并利用边界对齐和视频级别监督来有效地过滤噪声并检测转换。实验证明了这种方法在性能和训练速度上的有效性。
Mar, 2024
我们提出了一种高效的 BI-level Temporal modeling (BIT) 框架,用于监督行动分割任务,通过学习明确的行动标记来表示行动段,在帧级和行动级上进行时间建模,同时保持较低的计算成本,提高了现有基于 transformer 的方法在行动分割方面的准确性和计算效率。
Aug, 2023
ActionFormer 是一种基于 Transformer 网络的模型,采用了多尺度特征表示和本地自我注意力机制来识别视频中的动作。它在 THUMOS14 上取得了 71.0% mAP,在 ActivityNet 1.3 和 EPIC-Kitchens 100 中也表现出色。
Feb, 2022
我们提出了一种名为 OTAS 的无监督框架,通过探索局部特征的优点,实现了时域行为分割,并通过自监督全局和局部特征提取模块以及边界选择模块,融合特征并检测行为分割的显著边界。在实验中,我们发现 OTAS 相对于推荐的 F1 分数平均提高了 41%,甚至在用户研究中优于人工标注的地面真值,并且 OTAS 具备实时推理能力。
Sep, 2023
提出了一个针对时间行为分割任务的有效框架 ASRF,包含长期特征提取器和二个支路:Action Segmentation Branch 和 Boundary Regression Branch。这个框架通过预测行为界限来细化行为分类的输出,可以在三个具有挑战性的数据集上实现性能提升。
Jul, 2020
本文提出了一种新的行为建模框架,包括一种名为 Temporal Convolutional Feature Pyramid Network(TCFPN)的新型时态卷积网络和一种名为 Iterative Soft Boundary Assignment(ISBA)的新型弱监督序列建模训练策略,用于进行长且未修剪的视频中的弱监督人类行为分割。 并以 Breakfast 和 Hollywood Extended 这两个基准数据集进行评估,实验结果表明,其方法达到了与最先进方法相当或更好的性能。
Mar, 2018
该研究提出了一种无需 proposal 的时序行为检测模型 TAGS,该模型采用全局分割掩模学习每个动作实例的时序表达,通过针对全局时序表达进行检测,避免了 proposal 生成及评估所带来的高复杂度,从而在较低计算成本的情况下取得了当前最先进的性能。
Jul, 2022
该论文提出了一种基于增强学习的端到端流媒体视频时态行为分割方法 (SVTAS-RL),它将时态行为分割任务作为一种行为段聚类任务,通过引入强化学习来缓解优化目标和方向不一致的问题,实验结果表明 SVTAS-RL 模型在多个数据集上与最先进的时态行为分割模型相媲美,并在超长视频数据集 EGTEA 上展示出更大的优势,因此该方法能够取代所有当前的时态行为分割模型,尤其适用于长视频时态行为分割任务。
Sep, 2023
本文提出了一个基于序列到序列解决视频动作分割的统一框架,利用全面时间戳监督设置的 seq2seq 翻译。我们使用 类似于映射视频帧序列到动作分段序列的方法,来解决动作分割这一问题。我们提出了一系列修改和辅助损失函数,以及针对标准 Transformer seq2seq 翻译模型的模块化方法,以应对长输入序列和相对较少的视频输出序列。我们为编码器引入了辅助监督信号,提出了一个独立的对齐解码器用于隐式持续时间预测,最后通过我们提出的有限 k-medoid 算法将框架扩展到基于时间戳的监督设置,用于生成伪分割。我们的框架在完全和时间戳监督设置中表现一致,胜过或与几个数据集上的最先进算法相竞争。
Sep, 2022