- 语境长距离从语言到视觉的转换
通过扩展语言模型的上下文长度,我们实现了视频片段中的长上下文传递,使得大型多模态模型能够理解数量级更多的视觉标记,并开发了一个纯合成的长视觉基准测试,证明了 Long Video Assistant(LongVA)在处理长视频方面的优越性能 - 具有注意设计的视觉增强预测自编码器 (VAPAAD)
我们提出了一种名为 VAPAAD 的注意力设计视频增强预测自编码器模型,该模型通过集成注意力设计提高了预测性能,能够对视频序列中的时间动态进行细致的理解和处理,通过使用著名的 Moving MNIST 数据集展示了所提模型的强大性能和在文献 - 百万长度视频和语言的环形注意力世界模型
当前语言模型在理解不易用文字描述的世界方面存在不足,并且在处理复杂和长期任务时存在困难。该论文通过利用视频序列的时间信息和语言的静态图像之间的联合建模,在人类文本知识和物理世界方面形成了深入的理解,从而实现了更广泛的人工智能能力。
- JEANIE: 基于时序 - 视角对齐的 3D 骨架序列相似性度量
基于关节时间和相机视角的对齐方法(JEANIE)用于骨骼序列对动作识别的支持查询序列进行时间视角对齐,实现了有监督和无监督助推学习融合,取得了最新的实验结果。
- SelfOcc: 自监督视觉 3D 占据预测
本文提出了一种自监督学习方法 SelfOcc,使用视频序列仅学习 3D 占用情况,通过将图像转换为 3D 空间来得到 3D 场景表示,并利用自监督信号优化这些表示。SelfOcc 在 SemanticKITTI 和 Occ3D 上使用单帧输 - PointAvatar: 从视频中生成可变形基于点的头像
使用可变形基于点的表示方法 PointAvatar,将颜色和法向量相关联,可以基于单目视频生成高质量的可动画 3D 头像,并在渲染效率和拓扑灵活性方面加强。
- CVPR长时间视频的时间对齐网络
本文提出了一种时间对齐网络,能够对长期视频序列和关联文本句子进行处理,使用了一种新颖的共同训练方法来减少噪音并训练原始指导视频,应用于多个视频理解任务,包括文本 - 视频检索和弱监督视频动作分割等,获得了更好的性能。
- ICCV基于选择和细化的视觉跟踪视频注释
提出了一种新的框架,利用选择和细化策略自动改进跟踪算法生成的初始注释,包括一个时间评估网络和一个视觉几何改进网络,它们共同提供了一个原则性的方法来确保自动视频注释的质量,并且在大规模跟踪基准测试中表现出高度准确性。
- CVPR从视频中全局理解道路布局
本文针对复杂道路场景的视频序列,提出了一个模型,通过利用摄像机运动、上下文线索和全局时序信息等多个方法,推断出一组准确、一致的路属性,实验结果表明,该模型在道路场景推断方面具有较高的性能表现。
- 基于 CNN 集合的视频人脸篡改检测
本文提出了一种使用 ensembles 方法来判断现代面部操作技术的视频序列的面部操作检测的解决方案,该方案使用了基于卷积神经网络的不同模型,并结合了 EfficientNetB4、注意力层和连体训练等不同概念,针对以上两个概念结合的模型, - 运动监督下的协同分割
提出了一种自我监督深度学习方法用于共同部分分割,通过挖掘从视频中推断出的运动信息,该方法能够产生比以前的自监督共同部分分割方法更好的分割地图。
- 实时 3D 人体姿态估计和动作识别的多任务深度学习
本研究提出了一种多任务学习框架,能够同时从单眼彩色图像中估算二维或三维的人体姿态并分类人体动作。通过参数共享与关键预测部分解耦等技术,该框架能有效地处理静态图像和视频剪辑,实现了 100 帧以上的速度,并在四个数据集上显著提高了预测能力。
- AAAI视频行人再识别的时空互促
本文提出一种基于视频序列的人物再识别方法,通过 Refining Recurrent Unit 和 Spatial-Temporal clues Integration Module 来更好地表达视频序列中的空间和时间信息,并且采用了多层次 - CVPR通过深度强化学习自动实现视频中的人脸老化
使用深度强化学习方法,该论文提出了一种新颖的自动合成视频序列中年龄递进的面部图像的方法,它能够将给定对象的面部结构和纵向面部衰老过程相互连贯地建模,并使用深度卷积神经网络中的深层特征提取进行优化,是其它先前面部衰老方法无法比拟的解决方案。
- 动态转移 GAN: 通过从源视频传输任意时间动态到单个目标图像来生成视频
提出了一种新的基于生成对抗学习的方法 Dynamics Transfer GAN,用于生成空间时间连续且具有目标图像的视觉特征的视频序列。通过两个鉴别器对所生成的视频序列进行验证,实验结果表明该方法成功地将源视频序列的任意动态特征转移到了目 - CVPR自主移动机器人快速准确的薄结构障碍物检测
使用基于边缘的视觉里程法通过视频序列进行薄障碍物检测,具有快速、准确、稳健的特点。
- ICCV基于格子长短期记忆的人类动作识别
L2STM 是一种通过学习独立的隐藏状态转移来增强模型的时间动力学建模能力以及解决长期时间动态不稳定的问题的方法,结合多模态训练程序,在人类动作识别方面表现优于现有的基于 LSTM 和 / 或 CNN 的方法。
- ICCV无监督视频理解 —— 通过协调姿态相似性
采用基于视频序列的完全无监督深度学习过程,该过程可以描述一个活动的最基本组成部分,即单个姿势及其独特的过渡。
- Two Stream LSTM:人类动作识别的深度融合框架
本文主要介绍了基于卷积神经网络和 LSTM 神经网络的动作识别方法,实验证明本文提出的多流融合模型可以有效地提高识别准确率。
- 用于 3D 视频中动作识别的双流 RNN/CNN
本论文提出了一种通过将循环神经网络和卷积神经网络相结合运用于动作识别的算法,通过 SVM 对特征进行分类,实验结果表明,在标准数据集上,该算法提高了 14% 的识别率。