- 人体视频生成中增强逼真度的前景与背景动作解耦
通过采用不同的运动表示方法,我们引入了一种可同时学习前景和背景动力学的技术,该技术通过把它们的运动分离开来。我们的模型在真实世界的视频训练中生成了前景和背景动作之间协调的视频,并通过引入全局特征来扩展视频生成到更长的序列,以确保平滑的连续性 - AniTalker:通过身份解耦人脸动作编码实现生动多样的口型动画
AniTalker 是一个创新的框架,从单张肖像中生成逼真的说话脸部,通过普遍运动表示,捕捉了广泛的脸部动态,包括微妙的表情和头部运动。两种自我监督学习策略有效地增强了动作表达,并借助于扩散模型和方差适配器的整合,实现了多样且可控的面部动画 - 视频定制的运动反转
本研究提出了一种新颖的方法,用于在视频生成中进行运动定制,解决了视频生成模型中对运动表示的彻底探索的普遍差距。我们介绍了 Motion Embeddings,这是从给定视频中衍生出的一组明确、时间连贯的一维嵌入,旨在与视频扩散模型的时间转换 - ConditionVideo: 无需训练的条件引导文本到视频生成
在本文中,我们介绍了一种无需训练的文本到视频生成方法,通过利用现有的文本到图像生成方法生成逼真的动态视频,这种方法以条件、视频和输入文本为基础。我们的方法将运动表示明确地分为条件引导和场景运动组成,并引入了稀疏双向时空注意力来改善时序一致性 - 基于物理控制的通用人形动作表示
我们提出了一种通用的运动表示方法,该方法涵盖了针对基于物理的人形控制的全面的运动技能范围。
- 一种记忆增强的多任务协作框架,用于无监督驾驶视频中的交通事故检测
通过多任务协作的记忆增强框架(MAMTCF)来无监督地检测驾驶视频中的交通事故,同时对外观变化和目标运动建模,取得了比现有方法更好的性能。
- 文本到视频人物检索与一个新基准
本研究提出了一种新的任务称为 Text-to-Video Person Retrieval (TVPR),并构建了一个包含自然语言注释的大规模跨模态人员视频数据集 (TVPReid),利用 Bert 获取字幕表示并研究字幕与视频表示之间的关 - CVPR通用事件边界检测中多级稠密差分图的渐进式关注
本文介绍了一种名为 DDM-Net 的框架,通过构建特征库、密集差分图(DDM)及逐步注意力等方法,结合外观和运动线索,在视频理解领域中有效地实现识别和分析事件边界,最终比 LOVEU Challenge@CVPR 2021 的获胜解决方案 - ICCV学习时空自相似作为视频动作识别中的广义运动
通过提出基于时空自相似性的丰富且强健的动作表示方法,论文介绍了一种能够有效识别时空结构模式以及捕捉视频中长期交互和快速运动的神经网络块 SELFY,并在多个行为识别基准数据集上取得了最先进的结果。
- CVPR活现模糊瞬间
设计了一个端到端的自动编码器网络来提取运动模糊图像中的视频信息,生成具有时间上连续性的清晰图片序列,同时实现了实时的单张图像去模糊操作,结果表明我们的方法在精度、速度和紧凑性方面均优于现有方法。
- CVPR光流引导特征:视频动作识别的快速稳健运动表示
本研究提出了一种名为 OFF 的紧凑型动作表示法,通过直接计算深度特征图的像素空间梯度,能够嵌入现有的 CNN 网络进行视频动作识别,从而快速提取时空信息,实现了比两种流(RGB 和光流)快 15 倍的速度和与之相似的精度。
- 任务导向流的视频增强
本研究提出了一种基于任务的流程(TOFlow),该方法采用自我监督的方式以任务特定的方式学习运动表示,并在视频插值、视频去噪 / 去块以及视频超分辨率等三个视频处理任务上超越了传统的光流方法。
- 视频分类的高效双流动态和外观 3D 卷积神经网络
本研究提出基于 3D 卷积神经网络的新型深度学习模型,可以更快速和准确地进行动作和运动表示,进一步整合光流特征从而获得更准确的结果。
- 加速度图像下的运动表示
运动表示中时间差异信息是非常重要的线索,本文采用了一阶微分速度和二阶微分加速度来分析,进而证明采用卷积神经网络中的加速度流可以有效地提高运动表示的效果。
- 无人参与的人类行为识别
本文提出了一种新的人类行为分析概念,即 “无人干预下的人类行为识别”,为了理解行为标签,我们考虑了背景序列对于分类当前大规模行动数据集中的人类动作的影响。通过研究多种精巧的运动表征,我们探讨了一些特征从背景中提取可能过于强。
- 从非结构化视频中发现和对齐关节物体类别的行为
本文提出了一种利用一组涵盖多个视频的运动模式自动组织松散视频内容的系统,包括行为发现和空间对齐两个步骤。该系统可用于视频索引和检索,并可从互联网视频中学习物体类别的外观或行为。