- 视频溅射:多功能处理的视频高斯表示
我们引入了一种新颖的显式三维表示 - 视频高斯表示,用三维高斯将视频嵌入其中,以模拟视频的外观和运动。该方法在多个视频处理任务中表现出了高效性。
- 基于方向条件的人脸纹理映射用于基于视频的人脸遥感光电容积测量
利用三维面部表面构建一个新颖的基于方向条件的面部纹理视频表示,改善现有基于视频的面部远程光电测量的方法对动态和自由主体运动的鲁棒性。通过在 MMPD 上进行交叉数据集测试,我们的方法在纯净数据集上训练的 PhysNet 模型基线的性能上取得 - ActNetFormer:半监督视频动作识别的 Transformer-ResNet 混合方法
提出了一种使用跨体系伪标签与对比度学习的半监督行为识别方法,其中结合 3D 卷积神经网络(3D CNN)和视频变换器(VIT)的独特方法能够有效捕捉行为的局部和全局上下文信息,从而在标记数据的一小部分情况下实现了卓越的性能。
- 基于知识增强的多角度视频表示学习,用于场景识别
我们提出了一种新颖的双流框架,从多个角度(即时间和非时间角度)建模视频表示,并通过自蒸馏方式将两个角度融合在一起,在视频场景识别任务中自然引入知识。我们的实验结果表明,我们提出的方法是有效的。
- 快速合成非正式视频
基于单目视频的全局静态场景模型和逐帧点云的动态内容的混合视频表示方法能够实时合成高质量的新视图,并且训练速度比现有方法快 100 倍。
- MM细粒度时空运动对齐以用于对比视频表示学习
在本文中,我们提出了一个 Fine-grained Motion Alignment(FIMA)框架,它能够引入对齐良好且显著的运动信息。通过在时空领域中开发密集的对比学习框架来生成像素级的运动监督,并设计了运动解码器和前景采样策略来消除时 - CoDeF: 内容变形字段用于时间一致的视频处理
通过引入内容变形场 CoDeF 作为新型视频表示方式,可以将图像算法应用于视频处理,并具有超过现有视频转换方法的帧间一致性。
- AAAI通过潜在时间导航进行自监督视频表示学习
本文提出了一种时间参数对比学习策略 Latent Time Navigation (LTN),以捕捉细微的运动,从而增强视频表示学习模型中时间感知特性,使模型在 fine-grained 和面向人类的任务中的分类性能得到了显著提高。同时,在 - IJCAI利用时间对抗性增强提高视频表现
本研究提出了一种新的视觉增强技术 (Temporal Adversarial Augmentation), 该技术利用时间关注,通过最大化与时间相关的损失函数来移动神经网络的注意力分布,实现神经网络对于视频剪辑的视角多样化,增强了神经网络的 - VidStyleODE: 通过 StyleGAN 和神经 ODE 实现解耦的视频编辑
VidStyleODE 是一种基于 StyleGAN 和神经 ODE 的时空连续解耦视频表示方法,可以应用于视频编辑、运动操纵、图像动画、视频内插和外推等多个方面。
- CVPR从说明视频和其叙述中学习过程感知视频表示
研究利用大量网络教学视频和其解说学习视频表示方法,以编码动作步骤及其时间排序,推动步骤分类和预测等领域的发展。通过深度概率模型同时学习视频表示和时间依赖关系,且在 COIN 和 EPIC-Kitchens 等数据集上,具有比同类研究更明显的 - CVPR自监督视频表示学习的掩模运动编码
提出了一种名为 MME 的预训练模型,旨在通过重建外观和运动信息来探索时序线索,从而改善视频表示性能。方法着重解决多帧间的长期运动和从稀疏视频中获取细粒度时序线索这两个关键问题,并通过重建模糊区域中代表位置和形状变化的运动轨迹,使预训练模型 - ECCV基于运动敏感的对比学习方法用于自监督视频表征
本文提出了一种 Motion Sensitive Contrastive Learning (MSCL) 方法,将光流获取的运动信息注入到 RGB 帧中,强化特征学习,通过局部运动对比学习(LMCL),以及流旋转增强(FRA)和运动差分采样 - ECCV自监督视频表示学习的静态和动态概念
该研究提出了一种新的自监督视频表示学习方案,分别学习全局视觉概念和局部特征,使用交叉注意力机制聚合不同概念的详细本地特征来执行局部概念对比,并取得了 UCF-101、HMDB-51 和 Diving-48 的最新成果。
- ECCVGraphVid: 仅需少数节点即可理解视频
本研究提出了一种基于超像素的图形表示方法,并应用图卷积网络进行处理,以实现视频图像的有效表示和处理。通过降低参数数量并减少计算量,该方法可以显著提高计算资源的利用率并实现相关领域技术的有效应用。
- CVPR跨架构自监督视频表示学习
本文提出一种新的跨架构对比学习(CACL)框架,用于自监督视频表示学习,使用 3D CNN 和视频变换器并行生成对比学习中多样化的正对,同时引入了一个具有明确视频序列编辑距离预测能力的时间自监督学习模块,用于学习强大的时序性表示,在 UCF - ECCV流式多尺度深度平衡模型
StreamDEQ 是一种使用隐式层模型连续推断每帧视频表示且利用先前帧的表示作为初始条件的方法,通过实验证明,StreamDEQ 在几帧的实验时间内准确地恢复了近乎最优的表示,并且可以在视频显示期间保持最新的表示。
- CVPR无监督预训练用于时间动作定位任务
本文提出了自监督预训练的假动作定位任务(PAL)用于未监督的视频特征编码器的预训练,目的是为了提高时间动作定位任务的性能。与现有的方法相比,PAL 引入了一种时间等价对比学习范例,具有更好的适应性和性能。
- CVPR使用级联正样本检索的自监督视频特征学习
本文提出了级联正例检索(CPR)方法,用于多视角、多模式的自我监督视频表示学习,该方法在各项评估指标上优于之前的方法,并且在 UCF101 上实现了 56.7%的 Top-1 视频检索准确度.
- OCSampler: 用单步采样压缩视频至单个剪辑
本文通过提出 OCSampler 框架,利用一小段短视频的紧凑且有效的表示来实现视频识别的高效率。利用实例特定的视频压缩策略和轻量的 skim 网络和简单且有效的策略网络,我们扩展了所提出的方法,具有帧数预算,可以在高置信度下用尽可能少的帧