- 释放 CLIP 在视频亮点检测中的潜力
通过利用多模态模型中预训练知识和创新的显著性池化技术,我们在视频亮点检测任务中通过简单微调多模态编码器达到了最先进的性能,对于 QVHighlight 基准测试而言,可获得最佳表现。
- 局部无关视频解释:基于移除的解释在视频中的适用性研究
本文提出了一个针对视频领域的统一框架,旨在在维持高学习性能的同时,通过融合时序信息和实现局部解释,扩展针对计算机视觉数据的细粒度解释框架,并将六种现有的解释技术应用于视频数据,进行了评估和比较研究。研究结果表明,3D RISE、3D LIM - EZ-CLIP:高效零样本视频行为识别
EZ-CLIP 是对 CLIP 的简单高效改进,通过引入时序视觉提示和新的学习目标,实现了在视频领域的零样本学习和基于视频动作识别的高效训练。
- OST: 优化时空描述符提升通用视频识别中的文本知识
通过将大型语言模型应用于视频领域,进行语义空间的优化,从而改善图像 - 语言模型在视频数据上的性能限制,并提高视频识别的准确性。
- 自监督视频表征学习基准测试
本文提出了用于视频领域的自监督学习基准,并对数据集大小、数据分布、数据噪声、自监督预训练架构相关的五个不同方面进行了观察分析,同时提出一种新方法,不需要过多的训练数据,即可超越现有自监督预训练的先进水平。
- CVPR优化过的 CLIP 模型是高效的视频学习器
论文提出了一种用于显式建模时间序列的新型模块,通过视频精调 CLIP 模型,可以将图像级别的表示有效地转移到视频领域,取得了良好的实验效果。
- 视频自监督学习综述
本篇综述论文讨论了自监督学习在视频领域的应用,主要归纳了四种不同的自监督学习方法,分别为预测任务、生成式学习、对比学习和跨模态协议,并讨论了现有方法的局限性和未来发展方向。
- GraphMLP:用于 3D 人体姿态估计的类图像多层感知机结构
提出了一种简单有效的图强化 MLP-Like 架构,名为 GraphMLP,它将 MLP 和图卷积网络(GCN)结合在一起,用于 3D 人体姿态估计,并将人体的图结构融入到 MLP 模型中,允许局部和全局空间相互作用,实现了对视频和单帧中 - CVPRvCLIMB: 一种新颖的视频类别增量学习基准
本文提出 vCLIMB 连续学习基准测试,旨在探究在视频领域中,利用深度模型进行随时间增量式学习时出现的挑战,作者提出了一种能应用于基于记忆的连续学习模型的时间一致性正则化方法,能显著提高模型在未修剪连续学习任务中的性能,最高可提高 24% - ECCVMorphMLP:一种用于时空表征学习的高效 MLP 骨干网络
这篇研究提出了一种名为 MorphMLP 的自注意力自由骨干网络架构,它利用简洁的全连接层进行视频表示学习,并在多维度、多尺度因子分解的情况下实现了很好的精度 - 计算平衡,相比最新的最先进模型在视频基准测试中显著降低了计算量,同时获得更好 - 视频深度信息最大化表示学习
本文介绍一种名为 Video Deep InfoMax (VDIM) 的自监督学习方法,将原 DeepInfoMax 扩展至视频领域,其利用内部结构构建视图,并利用这些视图进行预测任务,从而实现对 UCF-101 数据集的行为识别任务的 S - 从在线舞蹈视频中学习
通过引入 “Let's Dance” 数据集,作者介绍了如何在视频领域应用深度神经网络方法,并探讨了这些方法在学习如何处理动态数据时的价值和性能,特别是在区分需要使用运动信息分类的动态运动大类方面的困难。
- CVPRTGIF-QA:关于视觉问答中时空推理的研究
本文提出了三个特别设计用于视频 VQA 的新任务,推出一个新的大型数据集 TGIF-QA,并提出了一种利用空间和时间关注的双 LSTM 方法,证明其在经验评估中的有效性。