基于语言的动作概念空间改进视频自监督学习
本研究提出了一种简单但强大的基准线以有效地适应预训练的 I-VL 模型,并利用其强大的资源 - hungry 视频理解任务的能力进行最小化的训练,通过几个随机向量连续提示向量进行优化,将视频相关任务转化为与预训练目标相同的格式。对于行动识别,动作定位和文本 - 视频检索的 10 个公共基准测试,尽管优化参数显著减少,但在封闭集,少量样本和零样本情况下,我们实现了与现有方法相当或最新的性能,实验上进行了广泛的消融研究以分析关键组件以与静态图像和视频之间的差距。
Dec, 2021
本研究使用随机视频预测学习了捕捉场景动态的潜在变量,同时尽量不受场景内容的影响,从而学习代理的行动空间;该方法在半监督学习下表现相当于现有的完全监督方法,在任务如行动条件视频预测和计划学习行动空间时,需要几个数量级更少的行动标签。
Jun, 2018
基于骨骼的动作识别的训练方法之一是基于监督学习的独热分类,这需要大量的预定义动作类别注释;而基于自监督学习的方法涉及预处理任务中的骨架变换,可能会损害骨架结构。为了解决这些挑战,我们引入了一种新颖的基于骨骼的训练框架(C$^2$VL),基于跨模态对比学习,使用渐进蒸馏从视觉 - 语言知识提示中学习无关任务的人类骨架动作表征。
May, 2024
基于 CLIP 的视频学习器在跨领域的开放词汇动作识别任务中表现受限,本文通过建立一个名为 XOV-Action 的跨领域开放词汇动作识别基准以及提出一种新颖的场景感知视频 - 文本对齐方法,来应对这一挑战,实验结果验证了我们方法的有效性。
Mar, 2024
本研究提出了一种基于视觉 - 文本匹配的多模态学习框架,通过对标签文本的语义信息进行建模,并提出了一种新的 “预训练、提示和微调” 范例,以实现零样本行动识别。实验结果表明,ActionCLIP 模型不仅具有卓越的零样本 / 少样本的迁移能力,而且在 Kinetics-400 数据集上也取得了 83.8% 的高准确度表现。
Sep, 2021
本文提出了一种基于上下文感知的时空对比学习(ConST-CL)的方法,该方法成功地实现了学习细粒度视频表示,利用区域预文本任务引导模型从一个视角到另一个视角转换,并整合整体和局部表示的并行学习过程。我们在多个数据集上评估了所学得的表示,并展示了 ConST-CL 在 6 个数据集上取得了具有竞争力的结果,包括 Kinetics,UCF,HMDB,AVA-Kinetics,AVA 和 OTB。
Dec, 2021
本文介绍了一种名为 Contrastive Language, Action, and State Pre-training (CLASP) 的方法,采用分布式输出使文本命令和行为单元之间的对齐变得更加准确,从而帮助了解决机器人学习中的相关问题。该模型在对未知数据集进行检索和图像描述生成等任务中表现出了优秀的性能。
Apr, 2023
本文提出 SLIP,结合基于自监督的学习和 CLIP 预训练的多任务学习框架,通过在 ImageNet 和其他数据集上进行多个实验,发现 SLIP 表现出更好的性能,同时获得比基于自监督学习和语言监督学习更高的准确性提高。
Dec, 2021
通过创新地将视频模型与大型语言模型相结合,本研究采用基于行动条件的提示方法来增强文本嵌入的人类先验知识,从而在开放词汇视频动作识别中实现了新的最佳性能,并具有优越的可解释性。
Dec, 2023
通过对视频帧中的运动线索进行建模、利用动态提示学习器生成与人类动作相关的运动感知提示并通过多模态交流模块实现协作学习,我们的方法在少样本学习和零样本学习中具有显著优势,并在少参数和额外计算成本的条件下实现了竞争性性能。
Aug, 2023