- Re^2TAL:针对可逆时间行为定位重构预训练视频主干网络
该论文提出了一种基于可逆网络的端到端方法 Re2TAL,用于时间行为定位(TAL),通过网络重连机制,将预训练的视频模型转换为基于可逆模块的模型,以提高模型训练效率和表现。使用此方法,只使用 RGB 模态的 Re2TAL 在 Activit - ECCV当坚强的骨架遇见强大的特征 —— 用于 Ego4D 时刻查询挑战的 ActionFormer
我们在 Ego4D Moment Queries Challenge 2022 的比赛中使用了 ActionFormer 作为主体,加上 SlowFast、Omnivore 和 EgoVLP 三种强大的视频特征,我们的解决方案在测试集上的平 - CVPR学习重构行动和共现特征以实现时间行动定位
该研究通过解决动作检测中的背景和上下文等因素对动作内容的冲击,提出了 RefactorNet 方法,该方法通过对视频片段的两种互补特征进行刻画,进而生成更加显著的动作信息表达形式,从而提升了动作定位的性能。
- ECCVTALLFormer:基于长期记忆 Transformer 的时间动作定位
提出 TALLFormer, 一种内存高效、可训练的时间动作定位 Transformer 方法,其长期记忆机制消除了在每个训练迭代中处理数百个冗余视频帧的需要,从而显著降低了 GPU 内存消耗和训练时间。
- CVPRASM-Loc:面向弱监督时序动作定位的行为感知分段建模
提出了一个新的弱监督方法,动态采样小 action segment,使用 intra- and inter-segment attention 精确地定位动作,并使用多步骤的改进策略,有效解决了动作定位问题。
- CVPR无监督预训练用于时间动作定位任务
本文提出了自监督预训练的假动作定位任务(PAL)用于未监督的视频特征编码器的预训练,目的是为了提高时间动作定位任务的性能。与现有的方法相比,PAL 引入了一种时间等价对比学习范例,具有更好的适应性和性能。
- CVPROpenTAL: 面向开放集合的时序动作定位
本文提出了 OpenTAL 框架,以 Evidential Deep Learning 为基础解决了开放场景下不可避免的未知动作问题,该框架由三个方面组成:具有不确定性的动作分类、动作性预测和时间位置回归,实验结果证明了该方法的有效性。
- CVPR基于代表性片段知识传播的弱监督时态动作定位
该研究提出了一种代表性摘要和传播框架,通过在视频中挖掘代表性片段来传播信息以生成更好的伪标签,从而解决了分类和定位之间的差异问题,并在 THUMOS14 和 ActivityNet1.3 数据集上取得了比现有方法更好的性能。
- ECCVActionFormer:使用 Transformers 定位行为片段
ActionFormer 是一种基于 Transformer 网络的模型,采用了多尺度特征表示和本地自我注意力机制来识别视频中的动作。它在 THUMOS14 上取得了 71.0% mAP,在 ActivityNet 1.3 和 EPIC-K - 基于持续时间的 Vlog 叙述动作时间定位研究
本文研究生活时尚视频中的时间人类行为定位,提出一个基于预期持续时间的简单而有效的方法,该方法使用数据集手动注释的 13,000 个行动,并分析它的语言和可视模态交互,并通过实验证明,相对于以往方法,该方法具有补充信息,并且在时间行动定位任务 - AAAIACGNet: 基于动作补充图网络的弱监督时序动作定位
本文提出了一种基于图卷积神经网络的新方法 ACGNet,用于增强视频级别标注数据下的弱监督时序动作定位问题,取得了在 THUMOS'14 和 ActivityNet1.2 数据集上的优越结果。
- 视频中时间动作定位的图卷积模块
本文研究了时空行为定位问题,提出了一种新的图卷积模块(GCM),强调了行为单元之间的关系对于行为定位的重要性,并证明了该模块能够提高现有行为定位方法的性能。
- 具有查询自适应变形器的小样本时间动作定位
本研究提出了一种新的少样本学习 (temporal action localization) 设置,使用未剪裁的视频来动态适应新类别和每个视频,同时引入了一个查询自适应变压器 (query adaptive Transformer) 来实现 - ICCV丰富时空动作定位的本地和全局上下文
该研究提出了一种名为 ContextLoc 的模型,通过丰富本地和全局上下文来解决时态动作定位的问题,并在 THUMOS14 和 ActivityNet v1.3 数据集上实现 56%以上的性能表现。
- 听我说:用混合方法增强音频时序动作定位
本文提出了简单而有效的基于融合的方法,首次同时考虑音频和视频模态用于监督式的未剪辑视频动作定位 (TAL),在多个融合方案、模态组合和 TAL 架构的消融试验中,我们通过大规模基准数据集(ActivityNet-1.3 和 THUMOS14 - CVPR探究用于时序动作定位的更强特征
本文研究了时域动作定位的方法,发现基于变压器的方法可以实现更好的分类性能,但不能生成准确的动作提案,最后通过以较高的帧分辨率提取特征来提高时域动作定位的性能,最终在 CVPR2021HACS 挑战中取得了第一名。
- FineAction:用于时间动作本地化的细粒度视频数据集
开发了一个新的大规模、细粒度视频数据集 FineAction,共包含 106 个动作类别的 103k 个时间实例,在 17k 个未修剪的视频中进行了注释,用于对时间动作定位进行基准测试,并深入分析了细粒度实例对时间动作定位的影响。
- CVPR弱监督时间动作定位的动作单元记忆网络
本文提出 Action Unit Memory Network (AUMN),通过学习行动单元存储器解决仅具有视频级别标签的未修剪视频中行动的检测和定位问题。AUMN 具有两个注意模块和三种有效机制,能够适应地更新存储器网络和学习特定的行动 - ICCV用于自监督学习的多模聚类网络:来自无标签视频
本文提出了一个自监督训练框架,通过在训练管道中增加多模态聚类步骤以捕捉跨模态的语义相似性,进而学习一个共同的多模态嵌入空间,并证明其能在文本到视频检索和时间动作定位等两个具有挑战性的领域展示出四个不同数据集上的最新成果.
- ACM-Net: 弱监督时间动作定位的动作上下文建模网络
本文提出了一种称为 ACM-Net 的动作上下文建模网络,它在体现动作实例、上下文和非动作背景部分的同时,采用了三分支注意模块来给每个时间点分手概率,并构建了三分支类激活序列来分别表示这三部分,通过在 THUMOS-14 和 Activit