- ICLR人类极简视频对动态识别模型的启示
研究了人类视觉中空间和时间信息的整合机制,提出了最小视频概念,并发现当前动态视觉识别网络无法重现人类对于整合空间和时间非常有效的能力。
- 联合建模动态与外观线索,实现鲁棒的 RGB-T 跟踪
提出了一种通过联合建模外观和运动线索的新型 RGB-T 跟踪框架,利用先进的融合方法并引入跟踪切换机制使其性能显著优于其他同类算法。
- CVPRSpeedNet: 学习视频速度
使用 SpeedNet 模型自动预测视频对象的速度,在无需手动注释的自我监督学习方式下可以检测任意速率的快慢,并通过预测出的速度增强了自我监督动作识别和视频检索性能。此外,SpeedNet 还可用于生成时间变化的自适应视频加速,可使观看者以 - ICCV以重力为参考,从视频中估算人的身高
本文提出了一种通过分析运动轨迹和重力引力,从单目图像中测量一个人高度的方法,可以避免额外的假设和数据采集,实验表明,该方法的平均绝对误差可以达到 3.9 厘米。
- 基于 Sim2real 转移学习的 3D 人体姿势估计:动作拯救
通过提取运动信息(光流和二维关键点),我们展示了神经网络方法可以在仅使用 SURREAL 合成数据的情况下与最先进的基于真实 3D 序列训练的方法相媲美地从 3D 视角估计人体姿态。
- CVPRSlim DensePose: 从稀疏注释和运动线索中进行经济学习
本文提出了一种更加高效的 DensePose 数据采集策略,即在视频帧中收集标记,并利用视频的动态传播地面真实注释,该方法可以通过提取视频中的运动线索来提高姿态估计结果。
- 动静之声
本论文提出了一种基于物体运动和振动的声音定位和分离系统,其中包含一个可学习的、端到端的模型 Deep Dense Trajectory(DDT)和一个课程学习策略,其与之前依赖于视觉外观提示的模型相比,在从大量未标记的视频中捕获音频 - 视 - 使用 CNN-LSTM 结构增强面部防攻击的动态提示
本论文提出了一种基于 CNN-LSTM 网络的人脸反欺诈方法,专注于视频帧间的运动线索,在回放攻击和 MSU-MFSD 数据库上表现出目前最先进的性能和更好的泛化能力。
- CVPR视频中的对象指称:基于语言和人类凝视
本研究提出了一种利用视频中物体的运动特征、人眼注视和时空语境等信息进行对象指称的新型神经网络模型,并使用一个包含 30,000 个对象的测试数据集验证了该模型的有效性。
- 通过采样局部外观和全局分布实现强大的三维动作识别
本文针对噪声深度数据难以捕捉运动和形状线索的现状,提出了一种新颖的两层 “视觉词袋”(BoVW)模型。该模型通过背景建模和引入运动和形状线索生成稳健和独特的时空兴趣点,利用多尺度 3D 局部方向核 (M3DLSK) 描述算法和空间 - 时间 - CVPR视频中动作、前景和背景特征的分离
本文介绍了一种非监督框架来提取视频表征的语义丰富特征,并提出了一个深度卷积神经网络来分离运动、前景和背景信息。实验结果表明,该网络可以在视频中成功分割前景和背景,并基于分离的运动特征更新前景外观。此处提供的预训练方法可以优于随机初始化和自动 - CVPR同时进行立体视频去模糊和场景流估计
该研究提出一种从立体视频中去除运动模糊的新方法,通过利用场景的分块平面假设和场景流信息来去除图像模糊,可显著改善光流估计和去除运动模糊的效果。
- 深度动作特征用于视觉跟踪
本文提出一种通过深度学习中的运动特征与外观特征结合的方法,以提升视觉跟踪的精度与稳定性。经过广泛实验验证,该方法在视觉跟踪中表现出了较高的性能。