- 深度假像检测:利用 2D 和 3D CNN 集成的能力
该研究使用 2D 和 3D 卷积神经网络的创新方法验证视频内容,结合滑动过滤器捕捉空时特征,利用 Voting Ensembles 和 Adaptive Weighted Ensembling 优化 3D 模型输出,在对抗深度伪造生成的欺骗 - 使用二维骨骼热图进行动作分割
这篇论文介绍了一种基于 2D 骨架的动作分割方法,可用于细粒度的人类活动识别,并且通过使用 2D 骨架热图和 RGB 视频作为输入,在动作分割数据集上表现出可比较 / 优越的性能和更好的关键点缺失容忍度。
- Pose2Gait: 从独眼视频中提取痴呆个体的步态特征
通过基于视频的环境监测老年痴呆患者步态分析,使用深度神经网络从视频中提取出与深度相机相关的三维时空步态特征,可以准确预测出步态的速度和步长信息,并可用于长期环境监测中检测步态方面的有意义变化。
- 计算机视觉中的群体活动识别:综述,挑战和未来展望
在计算机视觉领域,团体活动识别是一个热门话题。通过对团体关系进行活动识别,在视频分析、监控、自动驾驶和理解社交活动等各种场景中具有实际意义。本文综述了团体活动识别技术的现有研究进展,重点关注全局交互性和活动。首先,全面回顾了相关文献和各种团 - 基于紧凑运动表示条件下的非监督视频异常检测
本文提出了一种利用条件扩散模型进行无监督视频异常检测的方法,使用预训练网络提取空间和时间特征,并结合能概括给定视频片段运动和外观的紧凑运动表示进行条件约束,采用数据驱动的阈值,将高重构误差视为异常事件的指标。实验表明,该方法在大规模视频异常 - 时间对齐 2D 骨架序列学习
本论文提出了一种自监督学习的视频对齐框架,利用 2D 骨架热图作为输入,通过自身在空间和时间域内的自注意力机制来提取有效的时空和上下文特征,同时通过基于 2D 骨架的热图增强技术进行自监督学习,取得了比 CASA 更高的准确度和对缺失和噪声 - CVPRMED-VT:多尺度编码器 - 解码器视频 Transformer 及其在对象分割中的应用
本文提出了一种统一的多尺度编码 - 解码变形器,重点针对视频中的密集预测任务,利用编码器和解码器的多尺度表示提取时空特征以及进行精确的定位,同时采用多对多标签传播的转导学习方案,实现高精度视频对象分割和演员 / 动作分割。
- CVPR流媒体视频模型
提出了一种名为 “Streaming Vision Transformer” 的流式视频架构,利用具有内存功能的时间感知空间编码器产生帧级特征,供基于帧的视频任务使用;然后将帧级特征输入到与任务相关的时间解码器中,获得用于序列化任务的时空特 - CVPR基于骨骼的动作识别再探讨
本文提出了基于 3D 热力图堆叠的 PoseC3D 方法,相较于基于图卷积网络的方法,能够更有效地学习时空特征、更具鲁棒性,并且适用于多人场景,同时在处理过程中也更加易于与其它视觉模态进行结合。在四个具有挑战性的数据集中,PoseC3D 方 - ICCVSkip-Clip:基于未来片段顺序排序的自监督时空表示学习
本研究介绍了一种新颖的自监督表示学习方法,称为 Skip-Clip,该方法可以利用视频中的时间连贯性,用于训练模型进行视频未来的裁剪排序预测。研究结果表明,使用我们的方法学习到的特征是通用且可转移到下游任务的,并且在 UCF101 数据集上 - ICCVSTM: 时空和动作编码用于动作识别
本文提出了一个基于 2D 框架的 STM 网络,利用 STM 块替换 ResNet 架构中的残差块,同时编码时空特征和动作特征,实现了高效的视频动作识别。实验证明,提出的方法在数据集 Something-Something v1&v2、Je - 视频动作识别的时空金字塔网络
提出了一种新的空时金字塔网络,将空间和时间特征以金字塔结构融合,从而加强彼此。使用紧凑的双线性运算符实现高效训练的双线性融合操作,最终网络在标准视频数据集上取得了最先进的结果。
- 通过视频旋转预测进行自监督空时特征学习
本文提出了 3DRotNet,一种全自我监管的方法,用于从未标记的视频中学习空间时间特征来提高视频理解任务的性能
- CVPRAVA 任务中更好的基准模型
该研究提出了一个基于 Faster R-CNN 和 I3D 模型的简单 baseline,用于在 AVA 数据集上进行动作定位,最终模型在验证集上获得了 22.8%/21.9%的 AP,表现优于 CVPR 2018 挑战中的所有提交项。
- 基于预测特征学习的视频场景解析
应用有限的解析注释,发展了有效的表征学习方法来解决具有挑战性的视频场景解析问题,并提出了针对未标记视频数据的预测特征学习方法和针对场景解析任务的预测方向解析体系结构。
- 用于动作分割和检测的时序卷积网络
介绍了一种新的 Temporal Convolutional Networks 模型,可用于对视频中动作的细粒度分割和检测,具有高效性和良好的表现。