- 一种视频动作检测的语法组合模型
基于语法组合模型的行为检测方法可以有效地分析视频中的人类行动,提高模型的解释性和优化效果。
- 时空注意力与偏移非局部搜索
通过结合非本地搜索的质量和预测偏移量的范围,本文提出了一种称为移位非本地搜索的搜索策略,用于高效地计算视频的注意力图,以改善视频帧对齐质量和视频去噪结果。
- 在一天内在单机上训练一个大型视频模型
通过优化 IO、CPU 和 GPU 计算,本文展示了在一天内使用八个消费级 GPU 在一台电脑上进行最先进的视频模型训练的高效管道,与之前的工作相比,我们的管道在相同的架构下仅需 $rac {1}{8}$ 的计算量即可达到更高的准确性。
- 一种对相机运动稳健的新型流星检测应用
该研究论文介绍了一种用于自动检测流星的新工具。快速流星检测工具箱(FMDT)能够通过分析气象气球或飞机上的相机拍摄的视频来检测流星目击事件。该工具解决的挑战在于设计一个由简单算法组成的处理链,能够应对视频的高波动,并满足功耗(10 瓦)和实 - MM抑制运动模糊以实现鲁棒性的三维棒球选手姿势建模用于投球分析
使用视频来分析棒球投手在策略和预防伤害方面起着至关重要的作用。基于计算机视觉的姿势分析提供了一种高效和经济的方法。然而,使用 30fps 帧速率的可访问广播视频通常在快速动作中导致部分身体运动模糊,限制了现有姿势关键点估计模型的性能。本文提 - 单一视觉变换器的图像和视频联合学习
我们提出了一种使用单一模型联合学习图像和视频的方法,该方法采用了批量图像输入和通过深度融合来进行时间聚合的视频帧集合。通过实验结果展示了在两个图像数据集和两个动作识别数据集上的效果。
- 使用 Whisper 进行教育视频转录:使用人工智能进行教育视频转录的初步研究
使用视频作为电子学习的工具时,自动生成的转录文本对于提升学习体验至关重要。本文通过 25 个教育视频量化了由 Whisper 生成的转录文本,并且针对利用自动语音识别技术进行教育视频转录的研究提出了一些开放性问题。
- 学习时空语义对应关系
本论文提出了一个新的任务,即在视频中预测时空语义对应关系,为视频理解提供了新的思路,并且通过对两个现有基准数据集:Penn Action 和 Pouring 进行了注释和实验,最终得出了结论:最佳方法应综合考虑时空因素,而不是分别处理时间对 - 电影式大脑景观:基于脑活动的高质量视频重建
通过对连续 fMRI 数据的渐进式脑掩蔽建模、多模式对比学习以及深度网络训练等方案,提出了 Mind-Video 模型,能够以对抗性指导的方式从连续谷氨酸受体成像数据中高质量地重建任意帧率的视频,并在语义分类和结构相似性指数等方面优于先前的 - DNeRV:使用差异神经表示建模视频的内在动态
从函数拟合的角度分析了现有的隐式神经表征方法在处理具有大运动或动态场景时建模能力不足的问题,提出了基于帧间差异的 DNeRV 显式运动信息神经表征方法,用于视频压缩、修复和插帧等任务,并在 $960 imes1920$ 的视频上得到了比现有 - CVPR面向多样化视频的可扩展神经表达
该研究提出了一种新的神经表示框架 D-NeRV,旨在以更高效的方式对长时间或大量的不同内容的视频进行编码。使用这种方法,该方法的压缩结果大大超过了现有的 NeRV 和传统视频压缩技术,同时在相同的压缩率下,其在 UCF101 数据集上用作高 - TempT: 测试时间自适应的时间一致性
TempT 是一种新的测试时间适应方法,通过确保连续帧之间的预测的时间一致性,可以在视频中进行面部表情识别等计算机视觉任务中进行广泛应用的强大工具。我们使用流行的 2D CNN 基础架构对 TempT 在 AffWild2 数据集上进行性能 - 增量摘要的样本高效多模态语义增强
本文提出了一种基于提示的增量视频摘要方法,采用少样本的方式提取语义概念并结合聚类和查询技术提高摘要生成效率,并通过实验证明使用视频中相关实体和动作作为提示能够增强模型生成的摘要。
- ECCV望向相邻帧:无需离线训练的视频异常检测
该研究提出了一种基于多层感知器和增量学习者的在线视频异常事件检测方案,并在基准数据集上表现良好。
- CVPRSCVRL:洗牌对比视频表示学习
我们提出了一种新颖的基于对比的框架 SCVRL,用于视频的自监督学习。与以前主要关注学习视觉语义的对比学习方法(例如 CVRL)不同,SCVRL 能够学习语义和动作模式。我们通过将现代对比学习范式引入 popular shuffling p - 遮盖自编码器作为时空学习器
研究了 Masked Autoencoders 在视频方面的应用,支持在没有时空归纳偏差的情况下,使用随机遮挡进行自编码器学习,观察到高比例遮挡可提高速度和表现,可以成为无监督学习的方法。
- CVPR随机反向传播:一种训练视频模型的内存高效策略
在视频数据的神经网络训练中,提出了一种名为随机反向传播(SBP)的记忆效率高的方法,可以显著降低 GPU 内存的占用,并可用于各种视频任务的模型训练,包括动作识别和时间动作检测,而且几乎不影响准确率。
- 时光缝合:基于 GAN 的真实视频面部编辑
本文提出了一种基于对生成对抗网络的理解和神经网络学习低频功能的能力,使用 StyleGAN 对视频中的面部进行语义编辑,提高了当前最先进技术水平,实现了有意义的面部操作,保持了更高程度的时间连贯性,并可应用于高质量的 Talking Hea - CVPR将视频表示为用于动作识别的判别子图
本文提出了一种新型的 MUlti-scale Sub-graph LEarning 架构,通过构建空间时间图并将其分解成相对于节点数的紧凑的子图来表示和编码每个视频片段中每个动作的鉴别模式,进行在线聚类并选择判别性子图作为行动原型进行识别, - 利用空间变换的稀疏对抗性视频攻击
本文提出了一种面向视频的对抗攻击策略 DeepSAVA,通过加性扰动和空间变换的统一优化框架,利用贝叶斯优化和随机梯度下降算法产生扰动,采用结构相似性指数(SSIM)测量对抗距离,使 DeepSAVA 在保持人眼无法察觉的情况下获得最先进的