- 基于大型语言模型的上下文增强视频片段检索
通过引入大型语言模型(LLMs)的广泛知识,我们提出了一种大型语言模型引导的时刻检索(LMR)方法,以改善视频上下文表示和跨模态对齐,从而实现准确的目标时刻定位。
- Vamos: 视频理解的多功能行为模型
在研究中,我们提出了一种基于大型语言模型的学习框架,使用视频中提取的动作标签和自由形式的描述作为输入,证明了基于文本的视频表示在语言模型时代具有竞争力的表现,并在多个基准测试中取得了最先进的性能。
- CVPR具有自监督的情境化时空对比学习
本文提出了一种基于上下文感知的时空对比学习(ConST-CL)的方法,该方法成功地实现了学习细粒度视频表示,利用区域预文本任务引导模型从一个视角到另一个视角转换,并整合整体和局部表示的并行学习过程。我们在多个数据集上评估了所学得的表示,并展 - 自监督视频表示学习中的时间粒度探索
该研究提出了一种名为 TeG 的自监督学习框架来探索学习视频表示中的时间粒度,其在 8 个视频基准测试中显示出了超越有监督预训练的最新成果。
- ECCVMaCLR: 面向视频的动态感知对比学习表征
MaCLR 是一种新方法,通过视觉和运动模态之间的交叉模态学习,在 RGB 视频剪辑和动作路径之间富化标准对比学习目标,从而更关注前景运动区域,达到了自监督下行任务的最先进性能。
- 多视角伪标记用于视频半监督学习
我们提出了一种多视角伪标记方法来进行视频学习,它利用外观和运动信息的互补视角进行半监督学习,以获取更可靠的伪标签并比纯监督数据学习更强的视频表示。我们的方法在多个视频识别数据集上大大优于其监督对应方法,并在自监督视频表示学习的标准基准测试中 - CVPR基于时间对齐视频学习
本研究提出了一种自监督学习方法,利用时间视频对齐作为前提任务,同时利用帧级别和视频级别信息,通过时间对齐损失和时间正则化项的结合来训练编码器网络,通过在不同数据集上的广泛评估验证其在视频表示学习方面的出色性能。
- 从文本网络监督中学习视频表征
通过采集 70M 个公开的视频并使用相关的文本描述进行自我监督训练,本文提出了一种基于文本的学习视频表示的方法,证明了这种方法在预训练视频表示中比现有的方法更有效。
- 视频理解作为机器翻译
本文介绍了在大规模多模式视频数据集上的自我监督学习的发展;提出了一种基于生成模型的方法,以翻译问题的形式解决了这一问题,并将其应用于多种下游视频理解任务中。结果表明,本方法在性能上优于基于对比度度量学习的方法。
- ICCV对比自监督学习中的变换组合
本文介绍了将对比学习扩展到更广泛的数据变换集合,并提出了一种满足所有对比公式要求的实用构造,其中所有噪声对比公式的组件都被表述为一定的广义数据变换选择(GDTs),通过对视频数据进行分析,得出了在学习有效视频表示时对某些变换具有不变性和对其 - 通过视频和文本对判别学习时空特征
本文提出一种基于视觉 - 文本关联的弱监督跨模态 pair 鉴别框架 (CPD),并将其训练在标准视频和不加筛选的网络视频数据集上,成功在动作识别和零样本动作识别任务上取得了最优性能。
- CVPR从对应提议中学习视频表示
本文提出了一种名为 $CPNet$ 的神经网络模型,通过聚合可能的对应关系来学习视频表示,从而有效地将外观、长程动作与 RGB 输入混合,实现了具有时态一致性的 2D 场的演变。经过广泛的消融实验验证,$CPNet$ 在 Kinetics - ICCVDistInit: 不使用单个带标签视频学习视频表示
本文提出了一种另类的方法,通过使用预训练的图像模型作为 “老师” 来训练视频模型,从而实现对视频表示的无监督学习。相比于现有的技术,该方法在 input modalities 的不同数据源下具有更强的迁移性能,并在彻底未被筛选的原始视频数据 - NIPS无监督学习视角不变动作表示
提出一种无监督学习框架,利用未标记的数据来学习视频表示,通过学习推断不同视图的三维运动,捕捉视角不变的动作特征,以及增强视角不变特征的学习方法,并在多个数据集上证明该方法对动作识别的有效性。