基于语言的动作概念空间改进视频自监督学习

Jul, 2023

基于语言的动作概念空间改进视频自监督学习

Language-based Action Concept Spaces Improve Video Self-Supervised Learning

Kanchana Ranasinghe, Michael Ryoo

TL;DR使用自监督学习方法，对图像 CLIP 模型进行语言约束的调整，以适应视频领域，提高三个行动识别基准测试的零样本和线性探测性能。

Abstract

Recent contrastive language image pre-training has led to learning highly transferable and robust image representations. However, adapting these models to video domains with minimal supervision remains an open pr

contrastive language image pre-training video domains self-supervised learning action recognition temporal modeling

发现论文，激发创造

促使视觉 - 语言模型实现高效视频理解

本研究提出了一种简单但强大的基准线以有效地适应预训练的 I-VL 模型，并利用其强大的资源 - hungry 视频理解任务的能力进行最小化的训练，通过几个随机向量连续提示向量进行优化，将视频相关任务转化为与预训练目标相同的格式。对于行动识别，动作定位和文本 - 视频检索的 10 个公共基准测试，尽管优化参数显著减少，但在封闭集，少量样本和零样本情况下，我们实现了与现有方法相当或最新的性能，实验上进行了广泛的消融研究以分析关键组件以与静态图像和视频之间的差距。

Dec, 2021

事前学习与行动

本研究使用随机视频预测学习了捕捉场景动态的潜在变量，同时尽量不受场景内容的影响，从而学习代理的行动空间；该方法在半监督学习下表现相当于现有的完全监督方法，在任务如行动条件视频预测和计划学习行动空间时，需要几个数量级更少的行动标签。

Jun, 2018

视觉语言与骨骼的融合：逐步蒸馏和跨模态知识用于 3D 动作表示学习

基于骨骼的动作识别的训练方法之一是基于监督学习的独热分类，这需要大量的预定义动作类别注释；而基于自监督学习的方法涉及预处理任务中的骨架变换，可能会损害骨架结构。为了解决这些挑战，我们引入了一种新颖的基于骨骼的训练框架（C$^2$VL），基于跨模态对比学习，使用渐进蒸馏从视觉 - 语言知识提示中学习无关任务的人类骨架动作表征。

May, 2024

跨领域开放词汇行为识别中基于 CLIP 的视频学习方法的重新思考

基于 CLIP 的视频学习器在跨领域的开放词汇动作识别任务中表现受限，本文通过建立一个名为 XOV-Action 的跨领域开放词汇动作识别基准以及提出一种新颖的场景感知视频 - 文本对齐方法，来应对这一挑战，实验结果验证了我们方法的有效性。

Mar, 2024

ActionCLIP：视频动作识别的新范式

本研究提出了一种基于视觉 - 文本匹配的多模态学习框架，通过对标签文本的语义信息进行建模，并提出了一种新的 “预训练、提示和微调” 范例，以实现零样本行动识别。实验结果表明，ActionCLIP 模型不仅具有卓越的零样本 / 少样本的迁移能力，而且在 Kinetics-400 数据集上也取得了 83.8% 的高准确度表现。

Sep, 2021

具有自监督的情境化时空对比学习

本文提出了一种基于上下文感知的时空对比学习（ConST-CL）的方法，该方法成功地实现了学习细粒度视频表示，利用区域预文本任务引导模型从一个视角到另一个视角转换，并整合整体和局部表示的并行学习过程。我们在多个数据集上评估了所学得的表示，并展示了 ConST-CL 在 6 个数据集上取得了具有竞争力的结果，包括 Kinetics，UCF，HMDB，AVA-Kinetics，AVA 和 OTB。

Dec, 2021

对比语言、动作和状态预训练用于机器人学习

本文介绍了一种名为 Contrastive Language, Action, and State Pre-training (CLASP) 的方法，采用分布式输出使文本命令和行为单元之间的对齐变得更加准确，从而帮助了解决机器人学习中的相关问题。该模型在对未知数据集进行检索和图像描述生成等任务中表现出了优秀的性能。

Apr, 2023

SLIP: 自监督与语言图像预训练的结合

本文提出 SLIP，结合基于自监督的学习和 CLIP 预训练的多任务学习框架，通过在 ImageNet 和其他数据集上进行多个实验，发现 SLIP 表现出更好的性能，同时获得比基于自监督学习和语言监督学习更高的准确性提高。

Dec, 2021

生成用于开放词汇视频动作识别的动作条件提示

通过创新地将视频模型与大型语言模型相结合，本研究采用基于行动条件的提示方法来增强文本嵌入的人类先验知识，从而在开放词汇视频动作识别中实现了新的最佳性能，并具有优越的可解释性。

Dec, 2023

流动中的观察：使用动作提示学习来适应 CLIP 的动作识别

通过对视频帧中的运动线索进行建模、利用动态提示学习器生成与人类动作相关的运动感知提示并通过多模态交流模块实现协作学习，我们的方法在少样本学习和零样本学习中具有显著优势，并在少参数和额外计算成本的条件下实现了竞争性性能。

Aug, 2023