- MASA: 带有语义对齐的运动感知遮挡自编码器用于手语识别
提出了一种结合丰富的动作线索和全局语义信息的运动感知遮蔽自编码器(MASA)框架,通过自我监督学习范式实现对手语的全面表示,实现了在四个公共基准测试上的最先进性能。
- CVPR解耦参照视频分割中的静态与层级运动感知
视频级别参照表达理解的静态与运动感知的解耦以及对时间感知的强化,并采用对比学习来区分视觉上相似的对象的运动,取得了在五个数据集上的最先进性能,并在具有挑战性的 MeViS 数据集上有了显著的 9.2% 的 J&F 改进。
- FutureDepth: 学习预测未来提高视频深度估计
本研究提出一种新颖的视频深度估计方法 ——FutureDepth,通过让模型在训练时学习预测未来来隐式地利用多帧和运动线索来改善深度估计。通过将多帧特征输入到未来预测网络 F-Net 中,模型迭代地预测多帧特征,从而学习了底层的运动和对应信 - 对无监督手术器械分割中低质量光流的重新思考
通过我们的方法,在低质量光流的困境下,从光流直接提取边界、选择性地丢弃质量较差的帧,并使用可变帧率的微调过程,我们在 EndoVis2017 VOS 数据集和 Endovis2017 Challenge 数据集上展现了有希望的结果,分别达到 - LG-Traj: LLM 指导的行人轨迹预测
通过引入 Large Language Models (LLMs),本研究探究了使用 LLMs 改进行人轨迹预测任务的可能性,通过诱导运动线索生成物体过去 / 观察到的轨迹中的运动线索,并利用混合高斯聚类未来轨迹中的运动线索。我们的方法采用 - 视频伪装目标检测中的明确动作处理和交互提示
提出了一种新颖的显式动作处理和交互提示框架(EMIP),用于视频伪装目标检测(VCOD)。该框架利用预训练的光流基础模型,通过双流架构实现伪装分割和光流估计,并通过交互提示方式增强两个流的输出。实验结果表明,EMIP 在流行的 VCOD 基 - CVPRSeMoLi: 随波逐流
我们提供了一种基于运动线索的半监督目标检测方法,结合启发式聚类方法和物体跟踪器,使用运动物体的伪标签作为监督信号,在 Lidar 数据中训练三维物体检测器。我们通过利用场景流估计中的最新进展获取点轨迹,并从中提取长期的、与类别无关的运动模式 - 零样本视频对象分割的分层图模式理解
本研究提出了一种新的层次化图形神经网络建构(HGPU)架构,用于零样本视频对象分割(ZS-VOS),该网络通过利用动态线索(即光流)增强目标帧邻居的高阶表示,并通过分层解析和理解变换的多模态背景来实现更准确和稳健的结果。
- 双流注意力变换器用于下水道缺陷分类
我们提出了一种双流多尺度视觉转换器 (DS-MSHViT) 架构,用于高效下水道缺陷分类,并联训练了一个 RGB 分支和一个运动分支的单一网络,通过自注意力正则化来利用 RGB 和运动流的互补优势,以增强 RGB 的关注地图从而集中于相关输 - 注意分心事件追踪
提出了一种引入了变压器模块的具有抗干扰能力的事件驱动跟踪器,在两个大型事件跟踪数据集上验证了其在准确性和效率方面优于现有的最先进跟踪器。
- 无监督视频目标分割中以输出选择为选项处理动作
无监督视频对象分割是一项旨在在没有关于对象的外部指导的情况下检测视频中最显著的对象的任务。为了充分利用显著对象通常与背景具有不同的运动特征的属性,最近的方法共同使用从光流图提取的运动线索与从 RGB 图像提取的外观线索。然而,由于光流图通常 - MM流动中的观察:使用动作提示学习来适应 CLIP 的动作识别
通过对视频帧中的运动线索进行建模、利用动态提示学习器生成与人类动作相关的运动感知提示并通过多模态交流模块实现协作学习,我们的方法在少样本学习和零样本学习中具有显著优势,并在少参数和额外计算成本的条件下实现了竞争性性能。
- 光流提升无监督定位和分割
无标注图像分割和定位是自主机器人学习将图像解析为个体对象的关键能力,本研究提出了一种新的损失函数,利用无标注视频中的光流信息辅助自我监督视觉转换器的特征优化,实现了无标注语义分割的优于现有技术的性能。
- ICLR运用动作线索进行组合提示调整,用于开放词汇视频关系检测
本论文提出了使用运动线索的组合提示调优方法,名为 RePro,用于开放式词汇视频视觉关系检测的组合式预测。采用多模式设计的提示调优思想,RePro 在两个基准测试中表现出新的最先进性能,并进一步证明了所提出的方法的有效性。
- ICCV学习的多模态对齐的 4D-Net
4D-Net 是一种使用 3D 点云和 RGB 感知信息,利用动态连接学习和几何约束来进行三维物体检测的方法。在 Waymo Open Dataset 上,相较于现有方法和强基线,其利用运动线索和密集图像信息更能成功检测到远处的物体。
- CVPR通过正常性优势和自适应优化从未标记的视频中发现深度异常
本论文提出了一种基于深度神经网络和自适应学习的视频异常检测方法,利用 “正常性优势” 和动态删除数据等技术,实现了优于传统监督学习的效果。
- MM面部动作单元自监督区域和时间辅助任务识别
本文提出了一种基于自监督学习方法的区域和时序辅助任务学习框架(RTATL),通过考虑面部动作单元(AU)的属性,设计了 RoI 修复和基于单张图像的光流估计两个辅助任务,以更好地捕捉 AU 的局部特征、相互关系和运动线索,并在 BP4D 和 - ECCVMaCLR: 面向视频的动态感知对比学习表征
MaCLR 是一种新方法,通过视觉和运动模态之间的交叉模态学习,在 RGB 视频剪辑和动作路径之间富化标准对比学习目标,从而更关注前景运动区域,达到了自监督下行任务的最先进性能。
- 人类和机器中的无需重新识别追踪
研究深度神经网络在视觉追踪中是否具有物体外观和运动特征模拟的能力,并提出了一种追踪对象基于动态线索电路模型,并将之加到基于转换器的体系结构进行追踪,使其具有更好的普遍性和鲁棒性。
- CVPR可控时空视频超分辨率的时间调制网络
本文提出了一种使用 “时间调制网络” 的方法,结合弯曲卷积和局部时间特征比较模块来处理视频的短期和长期动作线索,以提高低分辨率和低帧率视频的空间和时间分辨率,实验结果表明,该方法的性能优于现有的 STVSR 方法。