- 高性能视频实例分割无需视频注释
通过利用图像数据集,本研究介绍了一种消除视频注释的方法,并通过适应性的 PM-VIS 算法来处理边框和实例级像素注释。通过引入 ImageNet-bbox 来补充视频数据集中缺失的类别,并通过 PM-VIS + 算法根据注释类型调整监督。通 - Speech2UnifiedExpressions: 从可负担的输入同步合成言语情感表情、面部表情和身体表情
使用 RGB 视频数据,我们提出了一种基于多模态学习的方法,可以同时合成数字角色的共语言面部表情和上半身动作。我们的方法从视频数据直接估计稀疏的面部关键点和上半身关节,并根据说话者的面部动作和身体关节动作合成合适的情感角色动作。通过对多个评 - 胸科手术视频分析与手术阶段识别
该研究论文介绍了一种利用视频数据进行手术阶段识别的方法,旨在为自动化工作流分析提供手术程序的全面理解。研究表明,在手术阶段识别任务中,视频基分类器相比于基于图片的分类器具有更高的效果。
- 大型视觉 - 语言模型的视频理解能力的扩展:减少令牌和减少视频
通过利用图像和视频之间的视觉相似性,本文介绍了一种成本效益较高的视频 - LVLM 模型,通过改进模型结构、引入创新的训练策略,并确定最有效的视频指令数据类型,实现了将基于图像的 LVLM 模型高效演化为视频 - LVLM 模型,并在有限资 - 实时运动检测使用动态模态分解
通过将时间序列数据拟合为线性动态系统,从而将动态数据分解为随时间按指数增长 / 衰减或具有固定振荡频率的空间相干模式的动态模态分解(DMD)是一种寻求的数值方法。我们提出了一种简单且可解释的基于 DMD 的流媒体视频数据运动检测算法,该算法 - CVPR多任务多模态自监督学习的面部表情识别
通过多模态多任务自监督学习方法,利用无标签的野外视频数据,实现了面部表情识别的模型,并在多个基准测试中取得了优秀的性能表现。
- Diffusion$^2$: 通过正交扩散模型的得分组合生成动态 3D 内容
Diffusion$^2$ 是一种新颖的框架,通过从视频数据和多视图扩散模型获取几何一致性和时间平滑性的知识,直接生成密集的多视图和多帧图像,优化连续性 4D 表示,从而在几分钟内生成 4D 内容。
- PLOT-TAL -- 基于优化输运的少样本时序动作定位的提示学习
本论文介绍了一种新颖的少样本学习中的时间动作定位 (TAL) 方法,通过在实际视频中泛化不同情境的能力来解决常规单提示学习方法存在的过拟合问题。采用多提示学习框架,增强了每个动作的一组多样化提示,更有效地捕捉通用特征并减少过拟合风险。此外, - 以视频为新语言进行现实世界决策
通过视频生成模型,利用视频数据解决现实世界中的任务是一个被低估的机会,可以在机器人、自动驾驶和科学等领域产生重大影响,但需要解决视频生成中的关键挑战。
- 基于视频的手术技能评估:树型高斯过程分类器
使用视频数据进行评估,展示了所提出方法在评估外科医生熟练程度、针对性培训干预和外科部门质量保证方面的有效性,该流水线结合了表示流卷积神经网络和一种新颖的基于树的高斯过程分类器,它具有抗噪性和计算效率。此外,引入了新的核来提高准确性,该流水线 - D$^2$ST-Adapter:解耦与可变形的时空适配器对于少样本动作识别
此研究论文介绍了适用于少样本动作识别的新型适配器调整框架 (D^2ST-Adapter),其采用双通道架构以解耦空间和时间特征,并设计了可塑性的时空注意力模块,能够在 3D 时空视图中全局建模特征,同时保持轻量级设计。实验证明,这种方法在少 - 基于编码器 - 解码器的长短期记忆(LSTM)视频字幕模型
本文展示了使用编码 - 解码模型来实现视频数据到文本字幕的多对多映射的方法,并讨论了数据预处理、模型构建和训练。通过对数据集的不同分割使用 2 元 BLEU 分数来评估字幕的准确性。通过特定的输出示例字幕表明模型在视频时间维度上具有通用性。 - 利用 YGAR 数据集的动作识别
我们提供了一个新的 3D 动作数据模拟引擎,并生成 3 组样本数据来展示其当前功能,通过这个新的数据生成过程,我们展示了它在图像分类、动作识别和探索更复杂动作识别任务的潜力,并训练和测试了一系列常用的图像识别模型来展示数据集和其生成过程的潜 - 你觉得自己能追踪吗?
介绍了一个包括 234 个高清摄像头记录的多摄像头跟踪数据集,从纳什维尔市附近的一段 8-10 车道长约 4.2 英里的高速公路同时录制了 234 小时的视频数据。该数据集包含高密度交通状况下的 500 + 个物体,典型物体持续时间为 3- - STint:自标注时序插值的地理数据
我们提出了一种无监督的时间插值技术,不依赖于光流等运动信息,通过自监督技术中的双循环一致性约束,使模型自动生成中间帧,从而在地理空间领域中获得更好的泛化性能。
- 编码 - 存储 - 检索:通过语言编码的自我中心感知增强记忆辅助
我们提出了一种记忆增强系统,利用自然语言编码和存储视频数据,并借助大型语言模型进行查询,旨在解决生活记录大量数据和高效检索特定信息的挑战。通过使用 QA-Ego4D 数据集评估我们的系统,在 BLEU 分数上取得了 8.3 的最先进结果,优 - 视频分类中的分阶段知识蒸馏:通过补充性弱监督框架对学生进度进行协调
本文提出了针对视频分类的基于子阶段学习的知识蒸馏框架,采用渐进级联训练方法和伪标签优化策略来提高效率和准确性,并在多个真实和模拟数据集上进行了广泛的实验表明其优于现有的知识蒸馏方法。
- 利用深度视频数据和阈值分割及 Mask R-CNN 算法预测奶牛体重变化
本研究旨在采用视频数据并比较不同深度学习方法,从而提高重复实测牛体重的预测性能,同时释出相关源代码,结果显示,Mask-RCNN 方法提高了牛体重预测的性能。
- CVPR利用近红外视频摄像头测量的生命体征和活动进行的深度学习睡眠分期
利用视频数据和深层迁移学习的方法,通过心率、呼吸速率和活动度等参数对睡眠进行分类,其在 50 名正常志愿者数据集上实现了 73.4% 的准确率和 Cohen's kappa 系数 0.61,成为基于视频的睡眠分级的最新研究水平。
- CVPR只是一瞥:重新思考视频连续学习的时间信息
在视频持续学习中,我们提出了一种名为 SMILE 的新型重播机制,通过个体 / 单帧对有效视频持续学习进行了改进,并在 Kinetics、UCF101 和 ActivityNet 数据集上实现了最先进的性能,优于之前的最新技术达 21.49