- ICCV以动作为中心的对比学习视频表征
本文提出了一种基于 Motion-focused 对比学习的方法,利用光流采样和梯度图校准训练视频特征,加强了自监督视频表示学习中的数据增强和特征学习,实验结果表明方法有效,超过了传统监督预训练的表现。
- CVPR多方位整合强化视频表征学习
本文提出了一个名为 MUFI 的新学习框架,用于从多方面的标签中学习视频表示,以反映完整的视频内容。通过在四个大规模视频数据集和两个图像数据集上使用 MUFI 框架学习 3D CNN,可以改善视频表示的能力,并在若干下游视频应用程序上实现更 - ICCV时间等变对比视频表示学习
介绍了一种新的自监督对比学习方法,旨在从未标记的视频中学习表示。该方法利用新的约束条件,以建立对时间变换等价的表示,并更好地捕捉视频动态。实验表明,时间等变表示在 UCF101,HMDB51 和 Diving48 的视频检索和动作识别基准测 - 自我调控学习用于主观视频活动预测
本文提出了一种基于自我调节学习的框架来解决标准递归序列预测在 egocentric 视觉中存在的误差积累问题,同时通过多任务学习进行联合特征学习,明显优于现有的最新技术,可以精确地识别支持活动语义的动作和对象概念。
- CVPR基于前景背景合并的运动感知对比视频表示学习
为解决视频自监督学习中的 “背景偏差问题”,我们提出了前景 - 背景合并(FAME)方法,通过将选择的视频的移动前景区域合成到其他视频的静态背景中,去除背景的 shortcut,让模型更专注于运动模式,从而在动作识别等任务上取得了最先进的结 - ICCV通过对比视频表示学习进行长短视图特征分解
本研究探讨自我监督视频表征方法中的静态及非静态属性的角色,提出将表征空间分解成静态和非静态特征,并通过自对比学习从长视图和短视图中分别捕捉特征,分别适用于视频级别动作分类和更细致的动作分割。静态特征捕捉更加稳定的属性,而非静态特征更加变化。
- ICCV通过多层特征优化增强自监督视频表示学习
本文提出了一种多层次特征优化框架,利用高级别特征构建分布图并指导低中级别特征学习。同时,设计了简单的时间建模模块以增强运动模式学习,并证明了该方法可以大大提高视频理解中的表示能力。
- ICCVASCNet:具有外观 - 速度一致性的自监督视频表示学习
本文提出了两个任务来学习视频外观和速度一致性,并在不使用额外模态或负样本进行无监督预训练的情况下,在 UCF-101 数据集上实现了 90.8%的准确率,这超过了 ImageNet 的有监督预训练模型。
- CVPR通过上下文和运动解耦实现自监督视频表示学习
本文提出了一种自监督学习的方法,通过在压缩视频中提取关键帧和动态向量来分别监督上下文和动态信息,并同时设计了两种预设任务,即上下文匹配任务和动态预测任务,以提高视频表示的质量和行动识别准确性。
- ICCV可组合增强编码用于视频表示学习
研究自监督视频表示学习中的对比方法,提出一种考虑数据增强变量的对比学习框架,以提高针对时间信息进行的微粒视频动作识别的性能,并在多个视频基准测试中达到最先进水平。
- CVPR视频中的时间活动检测粗细网络
介绍了 Coarse-Fine Networks 模型,利用不同抽象层次的时间分辨率学习更好的视频表示,提出 Grid Pool 和 Multi-stage Fusion 算法,成功降低了计算和内存需求,且超越了 Charades 数据集中 - 使用 CLIP 的视频检索简明框架
本研究探索了使用语言 - 图像模型 CLIP 来获取视频表示,而不需要用户注释,这一技术扩展应用于视频检索中取得了最先进的结果。
- ICCVACAV100M: 大规模数据集自动筛选方法应用于视听视频表征学习
本文提出了一种基于子集优化的自动数据集精选方法,目标是最大化视频中音频和视觉通道之间的互信息,证明此方法找到具有高音频 - 视觉对应性的视频,并展示我们的数据训练自我监督模型达到了与手动精选数据集相同的结果,最大的好处是可扩展性,我们发布了 - TCLR: 视频表征的时序对比学习
本研究提出了一种新的时间对比学习框架,采用两个新的损失函数以提高现有自监督视频表示学习方法的性能,其中局部 - 局部时间对比损失和全局 - 局部时间对比损失实现了在各种下游视频理解任务中的显着改进。
- CVPR少样本动作识别的时间关系跨变换器
本文提出了一种新的少样本动作识别方法,利用跨时间关系交换器构建类原型,形成有序帧的视频表示,依靠匹配多个支持集视频和学习高阶关系交换器,取得了 Kinetics、Something-Something V2(SSv2)、HMDB51 和 U - ICLR参数高效的多模态变压器用于视频表示学习
本研究针对音视频表示学习中的多模态转换器,通过分解模态特定和模态共享部分,基于低秩逼近提出了一种新的参数共享方案来降低其参数,并提出一种基于 CNN 嵌入空间的实例相似性负采样方法,可以将模型从头开始训练,并通过预先训练的方式在 Kinet - 层次化解耦空间 - 时间对比用于自监督视频表征学习
提出一种新的自监督视频表示学习技术,通过将学习目标分解为两个对比子任务并分层进行,强调空间和时间特征,从而鼓励多尺度理解。通过实验表明,可以将增强作为规则化进行操作来指导网络在对比学习中学习所需的语义,并提出一种方式,使模型可以在多个尺度上 - 自监督视频表示学习的 Cycle-Contrast
通过 CCL 方法,我们可以自我学习视频表示,从而在基于视频的应用程序中实现更好的性能。
- 使用可微分物理学从视频中学习识别物理参数
本研究提出使用可微的物理引擎在行动条件下的视频表示网络中学习物理潜在表示。我们使用监督和自监督学习方法来训练我们的网络,并确定物理属性。实验中,我们演示了我们的网络可以从视频和行动序列中学习编码图像并识别物理属性,我们还比较了我们的受监督和 - CVPR通过添加背景来消除背景:走向背景鲁棒的自监督视频表征学习
本研究提出了一种背景擦除方法,通过自监督学习强制把加入静态帧后的干扰视频特征和原视频特征拉近,从而有效减弱模型对背景的依赖,更加关注运动变化,实现对深度神经网络视频表征能力的提升。