- I2VEdit: 通过图像到视频扩散模型进行首帧引导视频编辑
通过使用预训练的图像到视频模型,我们介绍了一种新颖而通用的方法,将图像编辑工具的适用范围扩展到视频中,通过从单个帧到整个视频的传播编辑来处理全局编辑,局部编辑和适度形状变化,并且通过细粒度的注意力匹配来实现精确的调整,同时采用跳跃间隔策略来 - 基于深度学习的视频自闭症检测
自闭症谱系障碍 (ASD) 对儿童的生活常常造成困难,因此早期诊断对于正确的治疗和关怀是必要的。为了帮助医疗专业人员早期发现,我们提出了一种分析儿童对感官刺激反应的深度学习模型,旨在捕捉 ASD 和非 ASD 患者之间反应和行为的关键差异。 - 多模式学习:通过顺序阅读未修剪视频实现动作识别
提出了一种通过从未修剪的视频中顺序提取视频片段来聚合多个模型的学习视频的新方法。实验结果表明,与无同步相比,该方法改善了性能。
- 视频 CSR: 复杂视频摘要生成用于视觉 - 语言模型
我们提出了一个新的任务和人类标注的数据集,用于评估视觉语言模型对于生成视频剪辑的标题和摘要的能力,该数据集包含了 4800 个 YouTube 视频剪辑,时长在 20-60 秒之间,涵盖了广泛的主题和兴趣,对于视觉和听觉内容都进行了基于摘要 - CVPR跨模型伪标记用于半监督动作识别
本研究提出了一种称为交叉模型伪标记的半监督行为识别方法,利用两个不同结构偏差的模型互相预测伪标签,达到更好的识别效果。
- Kinetics-700 人类动作数据集简明注释
本文介绍了 DeepMind Kinetics 人类行为数据集从 600 类扩展到 700 类的详细更改,并使用 I3D 神经网络架构提供了基线结果和全面的统计数据。
- CVPR视频动作转换网络
本文介绍了行动转换器模型用于识别和定位视频剪辑中的人类动作,使用 Transformer 风格的架构聚合人物周围的时空背景特征,通过高分辨率、个性化、类别不可知的查询,该模型自动学习跟踪个人并从他人的动作中获取语义上下文
- 从视频中使用强化学习进行物理技能训练
本研究提出了一种基于深度姿态估计和深度强化学习的方法,使得物理模拟的角色能够从公开视频片段中学习技能,并提供了一个快速设计角色控制器的方法,结果是鲁棒的,并能够适应新的环境并预测人类动作.
- Kinetics-600 简要介绍
本文介绍了 DeepMind Kinetics 人类行为数据集的扩展,从拥有 400 个类别和至少 400 个视频片段变成 600 个类别和至少 600 个视频片段,并使用多种语言(葡萄牙语)进行多次查询以拓展数据集,同时使用 I3D 神经 - ACL研究音频、视觉和文本融合方法,实现端到端的自动人格预测
通过音频、文字和视频数据,采用多模态融合的方法,使用卷积神经网络预测大五人格特质分数,证明复杂交互能建立更好的模型与预测,该模型可用于提高虚拟代理的情商。
- 基于帧和视频级特征以及视觉内容分类的循环网络视频字幕生成
本文介绍了使用循环神经网络(RNN)生成短视频文本描述的系统,利用静态图像特征和视频专属特征的 RNN,我们研究了视觉内容分类器作为额外信息源的实用性,并通过实验结果证明了密集轨迹视频特征和内容分类器输出的利用,可以比单独利用它们表现更好。
- ECCV在有序约束条件下的视频弱监督动作标记
本文介绍了一种基于弱监督时序标注的视频动作分类方法,将视频分为多个时间间隔并为每个时间间隔分配一个动作标签,以实现动作时序的定位,并学习每个动作的鉴别器。通过新的数据集对该方法进行了测试。