- ChronoMagic-Bench:用于文本转时间流影片生成的变形评估基准
我们提出了一个新颖的文本到视频(T2V)生成基准,ChronoMagic-Bench,用于评估 T2V 模型(例如 Sora 和 Lumiere)在延时摄影视频生成中的时间和变态能力。
- 潜在着色:基于潜在扩散的说话人视频着色
通过利用经过优化的潜在扩散模型的强大能力以及具备时间一致性机制,我们可以改善自动视频上色的性能,解决时间不一致性的挑战。
- DragPoser: 通过潜空间优化从变量稀疏追踪信号中重建运动
通过 DragPoser,我们引入了一种新颖基于深度学习的动作重建系统,能够精确表示难以预测和动态的即时约束,达到实时的高端效应器位置准确性,并展示出对即时约束修改的强大适应性和对各种输入配置和变更的异常适应能力。
- 超越对齐:通过解析引导的时域一致性变换进行盲视频人脸修复
基于语义解析的时间相干转换器 (PGTFormer) 的盲视频人脸修复方法在保持时间相干性、生成无瑕疵结果方面表现出色,通过利用语义解析引导选取最优人脸先验生成具备时间相关性的结果,实验表明该方法优于之前的基线方法。
- PoseAnimate: 零样本高保真度姿势可控角色动画
从单张图片生成视频序列的 PoseAnimate 是一种新颖的零样本人物动画框架,通过将多样化的姿势信号整合到条件嵌入中以保持人物独立内容并维持动作的精确对齐,增强了时序一致性、保留了人物身份特征和复杂背景细节以及通过解耦角色和背景改善动画 - 掌握记忆任务的世界模型
通过在模型基础强化学习代理的世界模型中集成一种新的状态空间模型,在解决涉及行动和结果之间存在较大时间间隔或需要回忆遥远观察来指导当前行动的任务方面提出了一种名为 R2I 的新方法,该集成旨在提高长期记忆和长期视野信用分配,系统演示了 R2I - 通过查询扭曲进行人类视频翻译
本文提出了 QueryWarp 框架,一种用于时域连贯人体动作视频转换的新型方法。通过构建不同帧之间查询标记的时域相关性,我们使用外观流来对先前帧的查询标记进行变形,以与当前帧的查询标记对齐,从而在输出的自注意层上施加了显式约束,有效地保证 - 扩散化的通胀:文本到视频超分辨率的高效时态适应
我们提出了一种高效的基于扩散的文本到视频超分辨率调试方法,利用像素级图像扩散模型的易学性能够捕捉视频生成的空间信息,为了实现这一目标,我们设计了一个高效的体系结构,将文本到图像超分辨率模型的权重膨胀到我们的视频生成框架中,此外,我们还结合了 - FED-NeRF:在动态 NeRF 上实现高度 3D 一致性和时间连贯性的人脸视频编辑
本文提出了一个基于动态人脸 GAN-NeRF 结构的新型人脸视频编辑架构,通过利用视频序列来恢复潜在编码和三维人脸几何信息,实现多视角一致性和时序一致性的人脸视频编辑,成为先驱性的 4D 人脸视频编辑器,并在性能上超过现有的基于 2D 或 - Fairy: 快速并行指导视频到视频合成
本文介绍了 Fairy,这是一种最简化但稳健的图像编辑扩散模型的改进,为视频编辑应用提供增强。我们的方法集中在基于锚点的跨帧注意力的概念上,这种机制隐式地在帧之间传播扩散特征,从而确保更好的时间相干性和高保真合成。Fairy 不仅解决了先前 - 高分辨率视频的时间一致性扩展扩散模型
通过文本引导的潜在扩散框架,实现视频升尺度,并在保持时域一致性和质量平衡之间提供更大灵活性。
- 自主驾驶的流式运动预测
基于连续数据流的轨迹预测是一个重要的问题,我们引入了一个新的基准测试来解决忽略了流数据中出现和消失的物体以及预测结果的时间连续性的问题,我们提出了一个名为 "预测流" 的算法来解决这个问题,并通过采用多模型轨迹传播和可微分滤波器来提高预测质 - 双向时间扩散模型 —— 用于保持时间连续的人物动画
本文提出了一种通过使用双向时间建模的去噪扩散模型生成与真实人类动画高度相似的方法。
- 基于时间 - 频率感知器的多轨音乐转录
本文提出了一种新型的深度神经网络结构 Perceiver TF,用于多音轨音乐转录,通过引入分层扩展和额外的 Transformer 层来建模音频输入的时间 - 频率表示,从而实现 12 种乐器和声音的多任务学习,结果表明该系统在各种公共数 - 预训练文本转图像扩散模型进行视频上色
本文介绍了 ColorDiffuser:一种预训练的文本到图像潜在扩散模型的视频上色适应方法,包括颜色传播关注和交替采样策略两种技术,有效提高了模型在视频上色中的色彩保真度、时间上的一致性以及视觉质量,实验表明该方法优于现有方法。
- 使用文本和结构指导生成定制视频
本文提出了一种使用文本作为上下文描述和动作结构(例如逐帧深度)作为具体指导的定制视频生成方法,涉及使用先前为静止图像合成预先训练的潜在扩散模型并引入时间模块进行视频生成的联合条件视频生成。实验结果表明,该方法在时间一致性和与用户指导的忠实度 - CVPR基于上下文保留的双阶段视频领域转换用于肖像风格化
本文提出了一种基于神经网络的二阶段视频转换框架,并采用一种目标函数来同时实现时间上的一致性和源视频中的背景信息的保留,从而实现对人像进行优美的艺术风格化处理。该方法在保证实时性的同时,具有较好的效果。
- 基于语义的物体聚类在视频物体分割任务中的应用
通过语义辅助对象聚类(SOC)的多模态对比监督和强调时间上的连贯性,提出了一种在视频级别视觉语言对齐的增强下,对引用视频对象分割(RVOS)的研究,有效利用间帧关系和理解对象时间变化的文本描述。进行了大量的实验,并在所有基准测试中,我们的方 - CVPR音频驱动共话手势生成的扩散模型驯服
本研究提出了 Diffusion Co-Speech Gesture(DiffGesture)框架,该框架可有效捕捉跨模态的音频到手势关联并保持时间上的一致性, 通过弥散模型的设计思路, DiffGesture 可以在质量和多样性之间进行平 - CVPR通过多模态遮挡视频生成实现统一的文本引导视频完成
提供了一个新的任务,即文本引导下的视频完成(TVC),并提出了一种新的模型 —— 多模式蒙版视频生成(MMVG),通过文本输入生成高质量的视频完整图像,同时满足预测,倒带和填充的条件。