- 一种基于语义和运动感知的时空转换网络实现动作检测
本文介绍了一种新颖的时空变换网络,其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联,使用运动感知网络编码视频帧中的动作位置,并采用序列基础的时间注意力模型捕捉动作帧中的异质时间 - 全球与本地场景实体建模以实现精确的动作检测
我们提出了一种新的方法,通过自适应注意机制来分析和建模场景实体,以解决在体育视频中探测行为的复杂挑战,并取得了出色的性能改进。
- CVPR通过图像扩散过程进行动作检测
通过 ADIDiff 框架的三图像生成过程,本研究旨在通过图像生成开始点、结束点和动作类别预测的图像来解决动作检测问题,并通过离散的行列转换器设计来处理特殊属性的图像,从而在两个广泛使用的数据集上取得了最先进的结果。
- 一种视频动作检测的语法组合模型
基于语法组合模型的行为检测方法可以有效地分析视频中的人类行动,提高模型的解释性和优化效果。
- AAN:面向时间动作检测的属性感知网络
通过提取物体语义和模拟它们的关系,Attributes-Aware Network(AAN)在长期视频理解方面取得了优越的性能,包括在动作检测数据集 Charades 和 Toyota Smarthome Untrimmed 数据集上的表现 - 多模态 Transformer 网络用于动作检测
本文提出了一种新的多模态转换器网络,用于检测未修剪视频中的动作,利用新的多模态注意机制计算不同空间和动态模态组合之间的相关性,并提出一种算法来纠正相机运动引起的动态变形,该算法在 THUMOS14 和 ActivityNet 两个公共基准测 - MRSN: 多关系支持网络的视频动作检测
该研究提出了一种名为 MRSN 的神经网络模型,利用 Actor-Context 和 Actor-Actor Relation Encoder 分别建模,并通过 Relation Support Encoder 计算二者的支持并进行关系级互 - ECCV具有时间平滑 Transformer 的实时在线视频检测
通过在视频变压器的跨关注点中引入核的角度并应用两种时间平滑核,重新定义流式视频识别模型,拥有常数时间更新每帧的优势,在 THUMOS'14 和 EPIC-Kitchen-100 数据集上取得了最新的成果。
- ECCV一种高效的时空金字塔变换器用于动作检测
本研究提出一种名为 STPT 的层次化时空金字塔 Transformer 模型,通过采用局部窗口注意力和全局注意力模块,实现了对长视频片段中动作的高效检测和定位,与目前流行的基于 Transformer 的模型相比,提高了精度并减少了冗余计 - CVPR学习重构行动和共现特征以实现时间行动定位
该研究通过解决动作检测中的背景和上下文等因素对动作内容的冲击,提出了 RefactorNet 方法,该方法通过对视频片段的两种互补特征进行刻画,进而生成更加显著的动作信息表达形式,从而提升了动作定位的性能。
- CVPR由音频叙述引导的弱监督行为检测
提出了一种基于多模态学习和叙述监督的视频检测模型,可以从嘈杂的音频叙述中学习动作检测,从而降低标注的费用。
- CVPRRCL: 用于暂时动作检测的循环连续本地化
本研究提出了一种基于循环连续本地化(RCL)的完全连续表示方法,该方法建立在视频嵌入和时间坐标表示的基础上,能够对任意长度的段进行检测,进一步优化了现有的动作检测方法,在两个基准测试中显着提高了平均精度。
- CVPRMS-TCT: 多尺度时间卷积转换器用于动作检测
我们提出了一种基于 ConvTransformer 网络的行动检测方法,通过三个组件(时间编码器、时间尺度混合器和分类器)高效地捕捉视频中的短期和长期时间信息,实验表明该方法在 Charades、TSU 和 MultiTHUMOS 数据集上 - MM面向身份感知的图记忆网络用于动作检测
通过具有层级结构的图神经网络和注意力机制,提出了一个对于同一身份和不同身份之间的长期关系建模以及身份感知的研究,以显式地突出演员的身份信息,并在 AVA 数据集上获得了最先进的结果。
- CVPR自我中心动作检测的更强基线
本研究介绍了一种针对 2021 EPIC-KITCHENS-100 竞赛中的自我中心视频动作检测方法,其主要采用滑动窗口策略生成建议,以较高的效率提高任务的检测性能。通过简单地采用这些策略,我们使用单个模型在测试集上达到了 16.10%的性 - CVPR视频中的时间活动检测粗细网络
介绍了 Coarse-Fine Networks 模型,利用不同抽象层次的时间分辨率学习更好的视频表示,提出 Grid Pool 和 Multi-stage Fusion 算法,成功降低了计算和内存需求,且超越了 Charades 数据集中 - 重塑自我中心视角
本文介绍了拓展视角中最大数据集 EPIC-KITCHENS 的一种方法,推出了 EPIC-KITCHENS-100,其中使用头戴式相机记录了 45 个环境中长期非剧本活动的 100 小时、2000 万帧、90,000 个动作,在 fine- - CVPR演员 - 场景 - 演员关系网络用于时空动作定位
该论文提出了一种名为 Actor-Context-Actor Relation 的高阶关系建模方法,通过建立在多个元素之上的间接高阶关系来用于时空动作定位,能够有效提升动作检测的性能。实验结果表明该方法在 AVAKinetics 动作定位任 - CVPR高斯时空感知网络用于动作定位
本文提出一种新的视频动作定位框架,使用高斯核实现动作提案的动态时间尺度优化,通过学习一组高斯核对动作的时间结构进行建模,取得了目前最好的检测结果。
- ICCV基于背景建模的弱监督动作定位
该研究提出了一种潜在方法,利用注意力模型进行弱监督学习,其可以检测出影片中的动作,而无需特定类别的标签, 并利用弱监督学习进行比较准确的学习和定位,成功地应用于 Instagram 中的不加筛选的视频之间。