- 对齐前调整:利用实体到区域对齐的方法实现可迁移的视频动作识别
大规模视觉语言预训练模型在各种视频任务中取得了显著的成功。本文提出了一种新的 “事前对齐,然后自适应”(ALT)范例,通过对每帧进行实体到区域的对齐来解决从静态图像到复杂活动概念的映射挑战,并使用 VLP 的视觉 - 语言对齐进行自适应,以 - ICCV无监督开放词汇视频物体定位
通过在视频中定位对象的插槽注意力方法以及利用预训练的 CLIP 模型实现无监督视频对象定位,我们展示了近期视频表征学习和预训练视觉语言模型的重要进展,取得了显著的提升,并成为首个在常规视频基准数据集上具有良好结果的无监督方法。
- ICCVMGMAE: 视频蒙版自编码的运动引导掩蔽
本文介绍了一种新的视频自编码方法,采用运动引导的掩模策略,通过引入运动信息建立时间一致的掩模体积,从而提高视频自编码的性能。通过实验证明,该方法在视频预训练中能够更有效地处理时间一致性和信息泄漏问题。
- 在教学视频中基于视频图像挖掘的按键识别
我们提出从视频中自动发现任务图表示人们如何执行关键步骤的概率,并利用该图来规范化新视频中的关键步骤识别,从而在多个真实世界教学视频数据集上展示了影响:更可靠的零样本关键步骤定位和改进的视频表示学习,超越了现有技术水平。
- CVPR面向操作流程的指导视频理解预训练
本研究旨在利用视频表示学习技术,通过构建 Procedural Knowledge Graph (PKG) 生成伪标签来训练视频表示模型,以提高多种程序理解任务的精度。其中 PKG 结构由通过无标签的教学视频和基于文本的程序知识库信息融合而 - ICLRTempCLR:具有对比学习的时间对齐表示法
该论文提出了一种对全视频和段落进行显式比较的对比学习框架 TempCLR,通过使用动态时间规整来计算句子 - 剪辑对的最小累积成本作为序列级距离,它可以探索时间动态,并在视频检索、行动步骤定位和少量动作识别等任务中实现了一致的性能提升。
- CVPR遮蔽视频蒸馏:重新思考遮蔽特征建模,以进行自监督视频表示学习
本文提出基于两阶段模型的掩模视频蒸馏方法 (MVD),并采用空间 - 时间共同教学方法进行电影变换器的预训练,实验证明该方法对于多个视频数据集优于现有方法。
- 利用运动对比感知进行自监督视频表征学习
本文提出了基于长程残差帧和运动对比知觉网络的视频表示学习方法,旨在通过自监督学习获得更多的运动特定信息,并通过对比学习提高模型的语义表达性能,实验结果表明该方法对于 UCF-101 和 HMDB-51 数据集具有较高的性能表现。
- CVPR视频对比学习的概率表示
本文提出了一种概率视频对比学习的自我监督表示学习方法,该方法基于混合高斯将视频剪辑呈现为正常分布并将它们组合成一个高斯分布混合物来建模整个视频分布,通过此方法我们可以避免对剪辑进行转换以生成增强剪辑视图的不必要策略,实验证明该方法在 UCF - AAAI视频表示学习的频率选择性增强
本文提出了一种基于频域的时空数据增强方法,称为 FreqAug,可以在吸收视频信息的过程中减少对静态信息的偏好,以更好地学习视频表示,并在五个视频动作识别和两个时间动作定位下游任务上表现出一致的改进。
- 基于阅读策略的视觉表征学习用于文本至视频检索
本文主攻文本到视频检索任务中的视频表示学习,在此基础上提出了一种受人类阅读策略启发的视觉表征学习方法,经实验证明,在三个数据集上取得了最新的最优性能。
- AAAI利用正则化流抑制静态视觉提示的自监督视频表示学习
提出了一种基于概率分析的新方法,通过对视频编码进行正态流处理和随机变量建模来抑制静态视觉提示,从而获得更可靠的视频表示,这可以被更好地推广到各种下游任务中。
- ECCVMorphMLP:一种用于时空表征学习的高效 MLP 骨干网络
这篇研究提出了一种名为 MorphMLP 的自注意力自由骨干网络架构,它利用简洁的全连接层进行视频表示学习,并在多维度、多尺度因子分解的情况下实现了很好的精度 - 计算平衡,相比最新的最先进模型在视频基准测试中显著降低了计算量,同时获得更好 - CVPRSSAN: 可分离自注意力网络用于视频表示学习
该论文提出了一种分离的自注意力模块 (SSA),通过分别建模空间和时间相关性,有效地将空间上下文信息用于时间建模,将该模块添加到 2D CNN 中形成 SSAN,用于视频表示学习,在 Something-Something 和 Kineti - CVPR通过组合对比学习提炼视听知识
本文介绍了一种新的跨模态知识迁移方法,使用组合对比学习来学习复合嵌入,通过学习多模态知识来改善视频表示学习表现。在三个视频数据集上进行的实验表明,该方法显著优于现有的知识蒸馏方法。
- AAAI通过解耦场景和运动来增强无监督视频表示学习
提出了一种解耦场景和物体运动信息的 DSM 方法,通过构造正负剪辑来加强模型对物体运动信息的关注,减少场景信息的影响,并在两项任务上进行实验,发现在 UCF101 和 HMDB51 数据集上动作识别任务的准确率分别提高了 8.1%和 8.8 - ICLRV4D: 用于视频级别表示学习的 4D 卷积神经网络
本文提出采用 Video-level 4D 卷积神经网络(V4D)模型的长时空特征演化,通过设计新的 4D 残差块捕捉视频间的交互作用,将 4D 残差块轻松整合到现有的 3D CNN 中以进行层次化的长程建模,并在三个视频识别基准数据集上进 - 使用时序挤压池化学习时空表示
本文提出了一种新的视频表示学习方法,即 Temporal Squeeze(TS)池化,该方法可以从长序列的视频帧中提取必要的移动信息,并将其映射成一组少量的图像。将 Temporal Squeeze pooling 作为层嵌入到现有的卷积神 - 为什么我不能在商场跳舞?学习减缓动作识别中的场景偏见
我们提出了一种减轻场景偏差从而实现视频表示学习的方法,通过在行动分类的交叉熵损失中增加场景类型的对抗性损失和关于人类角色面罩混淆的损失,来鼓励学习能够在没有证据时无法预测场景类型和正确的行动的表示。我们的结果表明,相对于没有进行去偏置处理的 - CVPR通过预测动态和外观统计信息进行视频自监督时空表示学习
在没有人工标注标签的前提下,本文提出了一种自我监督学习方法来学习视频的时空特征,通过回归时空维度上的外观和运动统计量来提取视觉特征,并在视频分类任务中验证了其有效性。