- 基于骨骼的运动动作识别的跨块细粒度语义级联
本文提出了一种名为 “交叉块细粒度语义级联(CFSC)” 的模块来改善人体动作视频识别的问题,并在实验结果中展示了 CFSC 模块在动作分类方面的优势。
- AAAI联合建模触觉信号的时空特征用于行为分类
利用连续触觉信号进行动作分类的一项主要应用是医疗保健和机器人技术,然而,现有的触觉分类方法未能同时捕捉触觉信号的空间和时间特征,从而导致性能不佳。本文设计了一种名为 Spatio-Temporal Aware tactility Trans - AdaMAE:自适应掩模自编码器实现高效时空学习
本文提出了一种自适应掩蔽策略 AdaMAE,通过语义上下文采样网络有效地学习高空间时间信息的特征,达到更好的分类效果和更快的预训练速度。
- 应用驱动的人类动作识别 AI 范式
本文提出了一个可适用于多种应用场景的人体动作识别框架,包含多形式人体检测和对应动作分类两个模块。其中,通过构建开源数据集来训练多形式人体检测模型,从而识别人的整体、上半身或部分身体,并采用动作分类模型来识别跌倒、睡觉等动作。实验结果表明,该 - 基于时空概念的 3D 卷积神经网络解释
本文介绍了一种用于解释三维卷积神经网络的自动概念解释(ACE)框架,该框架基于高水平的 supervoxels 表示视频,并估计每个 Supervoxel 的重要性得分,可以发现不同重要级别的时空概念,并深入探索这些概念对目标任务(例如动作 - CVPR可变形视频转换器
本研究提出了 Deformable Video Transformer,利用动态预测小型视频数据块,根据运动信息决定模型在哪里观察视频,并优化变形注意机制,以获得更高的精度和更低的计算成本。
- CVPR时间动作检测的关系网络提案
本技术报告介绍了我们在 AcitivityNet 2021 挑战赛中针对时间动作检测任务提出的解决方案。我们通过使用 BMN、slowfast、CSN 和 ViViT 等方法来进行动作分类和特征编码,改进 BMN 算法的提案生成和行为检测以 - CVPR通过全局时间对齐和循环一致性进行表征学习
本文提出了一种针对同一过程(如人类动作)的时间序列(例如视频)的弱监督表征学习方法,通过对全局时间序列进行对齐,并利用对齐的隐变量跨序列对的全局时间顺序作为监督信号进行表征学习,通过最优序列对齐进行嵌入网络的训练。通过大量实验表明,该方法在 - TCLR: 视频表征的时序对比学习
本研究提出了一种新的时间对比学习框架,采用两个新的损失函数以提高现有自监督视频表示学习方法的性能,其中局部 - 局部时间对比损失和全局 - 局部时间对比损失实现了在各种下游视频理解任务中的显着改进。
- AVA-Kinetics 本地化人类行为视频数据集
该论文介绍了 AVA-Kinetics 本地化人类行为视频数据集,其中包含超过 230k 个帧,对每个人的关键帧进行了 80 个 AVA 动作类的注释,通过视频行动变换网络在 AVA-Kinetics 数据集上进行了基线评估,并证明了在 A - CVPR深度学习是否可以识别微妙的人类活动?
本研究提出了一种新的通过行为分类进行计算机视觉算法性能提高的方法,并且通过消除数据集的混杂因素来比较人类和计算机视觉性能,表明当前计算机视觉算法的性能还有待提高。
- ICCV图卷积网络 用于 时间动作定位
该论文利用图卷积网络 (GCNs) 来建立动作建议图,通过使用两种关系来捕捉上下文信息和不同动作之间的相关性,以模拟不同建议之间的关系并学习强大的动作分类和本地化表示,实验证明该方法在 THUMOS14 上显著优于现有最先进模型。
- 领域特定先验和元学习用于少样本第一人称动作识别
本文旨在提出一种基于元学习的有效的实现少样本迁移学习的方法,该方法使用局部视觉线索学习表示,以在具有不同场景和动作配置的公共数据集之间进行行为分类模型的迁移。结果表明,该方法在跨类别和跨数据集转移方面效果优于现有的行为分类方法。
- ICCVVideoBERT: 视频与语言表征学习的联合模型
本研究通过建立基于 BERT 模型的视觉 - 语言联合模型学习高级特征,提出了一种在无显式监督下学习高级特征的方法,并将其应用于多项任务,如动作分类和视频字幕生成等,取得了优越的成绩。
- 慢快网络用于视频识别
介绍了 SlowFast 网络用于视频识别,它包括 Slow 路径和 Fast 路径,其中 Slow 路径能捕捉空间语义,Fast 路径能捕捉精细时间分辨率的动态信息,并能在减小通道容量的前提下实现高精度的视频识别。
- ECCV演员中心关系网络
模型人与场景、物体之间的关系有助于精细化人类行为的区分,有别于现有 3D ConvNets 的方法,而采用 actor-centric relational network 以弱监督方式自动挖掘相关要素计算 pair-wise relati - ECCVECO: 在线视频理解的高效卷积神经网络
本文提出了一种基于长期信息的网络架构,能够同时加快视频处理速度和提高动作分类和视频字幕质量,其采样策略利用邻近帧的冗余性能够高效地处理每秒多达 230 个视频,具有与现有方法相当的性能且快速度可达现有方法的 10 到 80 倍。
- CVPR演员监督的时空动作定位
本文介绍一种视频动作时空本地化的方法,着重于弱监督学习,只需要视频类标签即可。利用演员在动作中的变换特性,引入基于演员提议的算法及注意力机制,对三个行为数据集进行测试,实验结果表明,该方法在弱监督下可以实现与一些强监督学习相当的性能。
- 从连续视频镜头中提取和分类潜水片段
该研究提供了一个实现了运动员训练视频自动化分析的完整解决方案,结合特定的挑战性真实例子,着重解决了跳水分类监测等关键问题,其中包涵运动员训练、视频分析、动作分类、跳水监测以及其他运动录像等广泛运用。
- 行动识别的未来何去何从?一种新模型及动力学数据集
本研究基于 Kinetics 数据集重新评估最先进的体系结构,并引入一种新的双流膨胀 3D ConvNet(I3D),该 ConvNet 可以在视频中学习无缝的时空特征提取器,利用成功的 ImageNet 架构设计及其参数,经过在 Kine