- 从野外视频中学习手持物体重建
本文介绍了一种通过采用从野外视频数据中提取的三维监督来重建手持物体的方法,并使用数据驱动的三维形状先验进行训练,结果表明这种间接的三维监督信号可以在没有直接现实世界三维监督的情况下有效地预测真实世界中的手持物体的三维形状。
- PIVOT: 视频连续学习提示
本文介绍一种基于 PIVOT 的新方法,该方法使用预训练模型中的知识,从而减少可训练参数的数量和相关遗忘。与先前的方法不同的是,我们的方法是第一种有效使用提示机制进行继续学习且无需领域内预训练的方法。我们的实验表明,PIVOT 方法在 20 - PatchBlender:视频 Transformer 的动作先验
本篇论文尝试解决计算机视觉中 transformers 架构应用在视频数据时遇到的问题,通过引入可学习的混合函数 PatchBlender,使得 transformers 成功编码视频数据的时间组成部分并提升了基础模型性能。
- ICMLLAVA: 用于对比视频预训练的语言音频视觉对齐
提出一种基于对比学习(contrastive learning)的学习方法 LAVA,用于自监督学习来学习联合语言、音频和视频表征,并使用变压器编码器在 Kinetics 700 数据集上预训练,其中相对于当前最先进的自监督和弱监督预训练技 - AAAI内容发现及内容参与
本文旨在分析用户如何与英国议会辩论的视频数据进行互动,使用超过两年的 Google Analytics 数据分析用户的互动模式,通过对视频浏览矩阵运用 NMF 算法来识别不同类型的用户。
- 使用 Tucker 分解压缩视频中的 CNN 内核:走向轻量级 CNN 应用
该研究使用 Tucker 分解对预训练卷积网络的卷积核进行压缩,以在移动设备上应用于视频数据并降低网络复杂度,在 THETIS 数据集上进行测试,结果表明比较相似的准确度,但相对于内存压缩的因子高达 51 倍,而实际计算速度提升却不足预期
- CVPRDeltaCNN: 视频稀疏帧差的端到端卷积神经网络推理
DeltaCNN 是一个在视频数据上加速 CNN 网络推断的框架,通过对非重要像素进行截断和跳过相似图像区域以减少计算冗余,使得在实际设置中能够显著地提高效率并在准确度上只有少量差异。
- 隐式神经视频压缩
该研究提出了一种基于神经网络的方法以实现视频压缩,通过隐式的神经网络表示每一帧的像素点来实现基于运动补偿的压缩,并利用学习的整数量化降低比特率。此方法称为隐式像素流(IPF)。
- ECCV事件神经网络
该论文介绍了一种名为 EvNets 的新型事件神经网络,该网络利用视频数据的冗余性达到了可观的计算节省,它的每个神经元都有提供长期记忆的状态变量,使得即使相机移动较大,也能在低成本时实现高精度的推理,同时该论文在高和低水平的视觉处理领域,包 - 雷达 - 摄像头像素深度匹配用于深度完成
该研究探讨了雷达和视频数据的像素级融合,并提出了一种从雷达返回数据到像素的映射,从而在雷达更稀疏的情况下提高车载系统深度感知能力。实验结果表明,在 nuScenes 数据集上,该方法在图像引导深度完成方面表现优于单独使用相机和雷达。
- CVPRSAIL-VOS 3D:用于视频数据目标检测和三维网格重建的合成数据集和基准
本研究提出了一个使用带时间信息的基准模型对视频数据进行三维物体网格重建的方法,通过构建综合场景来萃取物体的详细三维信息。我们通过 SAIL-VOS 3D 合成视频数据集验证了该方法的有效性,并向公众提供了相应的资源和信息。
- VidCEP:复杂事件处理框架,用于检测视频流中的时空模式
本文提出了一个使用图形化事件表示法和深度神经网络,使用视频事件查询语言在视频流数据上实现带有高表达能力的查询的 CEP 框架,并使用该框架检测了 spatiotemporal video event patterns。
- 无监督视频表示学习的演化损失
本文提出了一种新的方法来从大规模的无标签视频数据中学习视频表示,采用无监督表示学习作为多模式、多任务学习问题,利用进化搜索算法来自动找到捕获许多(自我监督)任务和模态的优化损失函数的组合,并提出了一种基于 Zipf 定律的无监督表示验证度量 - AAAI基于剪枝的图学习网络用于发现序列视频数据的组合结构
本文提出了一种基于 Cut-Based Graph Learning 网络的机器学习方法,用以处理序列数据中诸如视频等多层次的复杂结构,并通过图切割和消息传递框架找到数据的组成依赖关系,以提高视频理解的性能水平及分类表现。
- RWF-2000: 大规模暴力检测视频开放数据库
本文提出了一个基于光流和三维卷积神经网络的 Flow Gated Network 模型,用于自动识别监控摄像头拍摄的视频中的暴力行为。同时,作者建立了一个包括 2000 个真实场景监控视频的数据库,该模型在该数据库的测试集上获得了 87.2 - CVPR深度神经嵌入技术在视频无监督学习中的应用
本文介绍了 Video Instance Embedding(VIE)框架,它扩展了用于学习深度非线性嵌入的强大无监督损失函数以进行大规模视频数据集上的多流时间处理架构,展示了 VIE 训练的网络在 Kinetics 数据集的动作识别和 I - CVPRMLB 投手伤情的视频早期检测
本研究旨在探讨如何利用卷积神经网络基于视频数据实现对 MLB 投手的受伤检测和预测,并实验评价该模型在不同投手、不同受伤类型、以及受伤预测时间等方面的性能表现。
- 通过交替反向传播时间来学习动态生成器模型
本研究研究了动态生成模型的空间 - 时间过程,如视频数据中的动态纹理和动作序列,模型通过一个生成模型产生视频序列中的每个时间帧,生成模型是潜在状态向量的非线性转换,并由自回归模型控制。
- 野外环境中的美式手语手指拼写识别
本研究针对美国手语中的手指拼字识别进行了研究,并提出了迄今为止最大的数据集用于手指拼字识别。使用这个数据集,我们提出了在自然出现的视频数据中识别手指拼字序列的第一次尝试,并利用手的检测器和序列模型进行识别。通过对模型变量的影响分析,本研究提 - ECCV视频中手震频率估计
本研究基于 RGB 视频数据,提出拉格朗日和欧拉两种方法,从视频数据中估测人体手震颤频率,旨在为帕金森等疾病的分析、诊断提供无创监测手段。研究使用新数据集 TIM-Tremor 对方法进行实验,数据集包含静态和动态任务,共有 55 个手震颤