- 零样本场景变化检测
我们提出了一种新颖的无需训练的场景变化检测方法,该方法利用跟踪模型进行连续帧变化检测,通过识别共同物体和检测新的或缺失的物体。我们还通过引入自适应内容阈值和样式桥接层解决了输入图像之间的内容差异和样式差异问题,并将该方法扩展到视频以提高场景 - VidMuse: 一个简单的长短期建模视频音乐生成框架
本文系统研究了仅基于视频生成音乐的方法,并提出了一个大规模数据集和一个名为 VidMuse 的简单框架,该框架通过在局部和全局可视线索的引导下,使用长短期模型创建与视频内容一致的音频轨迹,实现了高保真度的音乐生成及其与视频的音视一致性对齐。 - 使用扩展的注意力实现视频中的时态一致的对象编辑
使用预训练的图像修复扩散模型,通过替换自注意力模块以创建帧级依赖关系,我们提出了一种编辑视频的方法,以确保编辑信息在所有视频帧中保持一致,从而在对象重定向、对象替换和对象移除等多个视频编辑任务中展示了该策略的卓越性能。
- Shotluck Holmes:用于视频字幕和摘要的高效小规模大语言视觉模型家族
我们提出一种名为 Shotluck Holmes 的高效大型语言视觉模型 (LLVMs),通过改进预训练和数据收集策略,扩展现有小型 LLVMs 的能力,从仅能理解一张图片到能够理解连续的帧序列,在 Shot2Story 视频字幕和摘要任务 - 融合未校准惯性测量单元和手持智能手机视频以重建膝关节运动学
使用手持智能手机视频和未校准的可穿戴传感器数据的融合方法能够在保留其完整时间分辨率的同时,进一步减小髋关节行走期间的误差,并可追踪视觉遮挡期间的运动。
- 使用序列到序列建模从静默视频合成音频
使用序列到序列模型和 3D 向量量化可变自编码器来从视频生成音频,以改进与音频视觉媒体的交互,包括 CCTV 镜头分析、历史视频恢复和视频生成模型。
- CVPRHumMUSS: 使用状态空间模型进行人体动作理解
基于状态空间模型,我们提出了一种新颖的无注意力空间时间模型,用于人体运动理解,兼具离线和实时应用的功能,并在各种动作理解任务中达到了变压器模型的性能水平。
- CVPR个性化视频视线估计的时空注意力和高斯过程
使用深度学习模型和专门的注意力模块,通过视频实现准确的注视方向预测,并且通过个性化处理和少量样本获得更高的精度。
- 视频伪装目标检测中的明确动作处理和交互提示
提出了一种新颖的显式动作处理和交互提示框架(EMIP),用于视频伪装目标检测(VCOD)。该框架利用预训练的光流基础模型,通过双流架构实现伪装分割和光流估计,并通过交互提示方式增强两个流的输出。实验结果表明,EMIP 在流行的 VCOD 基 - 装配视频中斗争判定的数据集和基准线
本文提供了一个新的视频数据集,包含了装配水管、搭建帐篷和汉诺塔游戏等三种实际问题解决活动的视频片段,并通过专家和众包的方式对视频片段进行了标注,从而评估了困难分类、困难水平回归和困难标签分布学习等决策任务。此工作旨在帮助分析困难、支持用户在 - 重新思考基于视频学习视觉表示的特征预测
该研究探讨了以特征预测作为无监督学习的独立目标,并介绍了 V-JEPA,一个仅使用特征预测目标进行训练的视觉模型集合,无需预训练图像编码器、文本、负样本、重建或其他监督方式。我们的研究结果表明,通过预测视频特征进行学习可以得到性能良好的通用 - 基于 3D 可变形网格模型和光流的结构密集位移网络
本研究提出了一个网络,通过单目摄像头识别 RC 框架结构的位移。该网络由 FlowNet2 和 POFRN-Net 两个模块组成,FlowNet2 用于生成稠密光流,POFRN-Net 用于提取姿态参数 H。该研究展示了对第一视频的真实位移 - 自我上下文感知人机交互中的情绪认知
通过引入自我上下文感知模型 (SCAM),结合二维情绪坐标系统、独特信息保留结构和上下文损失,我们在音频、视频和多模态情景中显著提高了情绪识别的准确性。未来,我们将通过心理实验来验证 SCAM 在机器人上的可靠性和可用性。
- ANIM-400K:一个大规模数据集用于视频自动配音的端到端系统
我们介绍了 Anim-400K,这是一个包含超过 425K 对齐的日语和英语动画视频片段的全面数据集,支持各种与视频相关的任务,包括自动配音、同声翻译、引导式视频摘要和类型 / 主题 / 风格分类。我们的数据集已公开发布供研究目的使用。
- 使用不可靠的跟踪姿态进行群体活动识别
Rendered Pose based Group Activity Recognition System (RePGARS) is a deep learning-based approach that outperforms exist - AAAI知识引导的半监督学习用于用户生成视频的质量评估
本研究通过自我监督的时空视觉质量表示学习 (ST-VQRL) 框架生成稳健的质量感知特征来解决用户生成内容 (UGC) 视频的感知质量评估问题,并通过双模型的半监督学习方法 (SSL-VQA) 在有限的人工注释视频的情况下,通过两个模型之间 - AAAI不再取巧:实现时间自监督的潜力
我们提出了更具挑战性的帧级自我监督任务和有效的增强策略,通过增加 Transformer 模型来训练从对比学习中预训练的单帧视频表示,大幅提升了通过时间自我监督学习到的特征的质量,并且在高水平语义任务和低水平时序任务上表现出卓越的性能。
- 患者 - 临床医师互动的路径签名表征作为儿童神经心理测试结果的预测器:概念验证
这项研究报告提出了在诊断认知发展障碍的儿童的视频和语音数据中应用机器学习技术的概念验证研究。该研究利用了 39 个视频录制的数据集,收集了包括四项认知评估测试在内的临床会诊的广泛内容。通过从每个临床会诊的前 40 分钟中提取临床医生和儿童的 - MotionCrafter:一次性定制扩散模型的运动
MotionCrafter 是一种新型一次性实例引导的动作定制方法,通过并行的时空架构注入参考动作到基础模型的时间部分,同时独立调整空间模块以进行角色或风格控制,以增强动作与外观的解耦,进而维持多样性,量化和定性实验证明了 MotionCr - VioLA:将视频与 2D LiDAR 扫描对齐
研究通过建立语义地图和利用图像序列与 LiDAR 扫描进行地点对齐的问题。提出了一种名为 VioLA 的方法,在固定高度提取用于注册到 LiDAR 地图的点。使用预训练的文本到图像修复模型和深度补全模型填补缺失的场景内容以支持姿态注册。在两