- VidToMe: 零摄影剪辑的视频令牌合并
通过合并帧间的自注意力标记,提高生成视频的时间一致性和降低内存使用,从而实现图像编辑技术在视频编辑领域的扩展。
- Text2AC-Zero:使用 2D 扩散一致合成动画角色
我们提出了一种零样本方法,基于预训练的文本到图像扩散模型实现一致的文本到动画角色合成。通过利用现有的基于文本的动作扩散模型生成多样的动作,并使用其指导文本到图像模型,我们成功地在不需要训练或微调的情况下生成了具有不同动作和风格的时序一致的视 - FreeInit: 视频扩散模型初始化缺口的桥梁
通过深入研究视频扩散模型的噪声初始化,我们发现了一种训练与推理之间的隐式差距,为此我们提出了一种名为 FreeInit 的简洁而有效的推理采样策略,显著提高了扩散模型生成的视频的时间一致性。
- 一个视频值 256 基:空间 - 时间期望最大化反演用于零射影视频编辑
该论文提出了一种用于零样本视频编辑的视频反演方法,通过在反演过程中对输入视频建模为低秩表示。研究发现,与现有的方法不同,提出的空时期望最大化(STEM)反演方法能够在整个视频中应用固定和全局表示以保证重建和编辑的时间一致性,并取得了两种最先 - AVID:扩展视觉中任意长度视频修复的扩散模型
使用扩散模型实现了文本引导的图像修复的最新进展,而在视频领域中,关于文本引导的视频修复的研究较少。为了解决文本引导的视频修复中的三个主要挑战:时间一致性、不同修复类型的支持、以及可变的视频长度,我们提出了一种名为 AVID (Any-Len - MagicStick: 可控视频编辑通过控制杆转换
最近文字导向的视频编辑引起了极大的兴趣,我们提出了 MagicStick 方法,通过利用提取的内部控制信号的转换,来对视频属性进行编辑,展示了对形状、大小、位置、动作等进行编辑的能力,我们的方法是第一个展示了从预训练文字到图像模型的视频属性 - DreamVideo: 高保真图像到视频生成(具备图像保留和文本指导)
我们提出了一种高保真度的图像到视频生成方法,通过在预先训练的视频扩散模型上设计一个帧保留分支,名为 DreamVideo,来解决现有方法的局限性,该方法通过卷积层感知参考图像,并将特征与噪声潜在变量连接起来作为模型输入。同时,通过结合无分类 - 运动引导的潜在扩散用于时域一致的现实世界视频超分辨率
利用预训练的隐式扩散模型,结合时序动态和创新的序列导向损失来提高视频超分辨率,实现更好的感知质量。
- MagicAnimate: 使用扩散模型的时间一致人体图像动画
这篇论文研究了人物图像动画任务,提出了一种基于扩散的框架 MagicAnimate,旨在提高动画的时间一致性、保持参考图像的准确性和提升动画质量。通过引入视频扩散模型、新颖的外观编码器和简单的视频融合技术,该方法在两个基准测试中表现出卓越的 - 视频修复的流引导扩散算法
Flow-Guided Diffusion model significantly enhances temporal consistency and inpainting quality in video inpainting by em - FLAIR:一种有条件的扩散框架及其在人脸视频修复中的应用
提出了一种名为 FLAIR 的条件扩散框架,用于解决人脸视频修复问题,并通过将传统的图像 DPM 转换为视频 DPM,通过递归视频细化层和不同尺度的时间自注意力来确保计算效率方面的时间一致性。FLAIR 还使用条件迭代细化过程来在推理过程中 - 通过同步多帧扩散实现高精细和时间一致的视频风格化
提出了一种基于文本引导的视频风格化方法,通过同步多帧扩散框架来维持视觉细节和时间一致性,实现了视觉细节和时间一致性的生成高质量和多样性的结果。
- 使用物理感知 GAN 创建具有时间相关性的高分辨率功率注入配置文件
传统智能电表测量缺乏实时决策所需的细致度。为解决这一实际问题,我们通过凸优化层引入强制时间一致性的生成对抗网络(GAN)模型。我们的 GAN 模型的一个独特特征是,它仅通过历史智能电表数据中的慢时间尺度聚合功率信息进行训练。结果表明,该模型 - 揭示可普遍适用的深伪冒检测中的常见不一致性
我们提出了一种基于帧不一致性的检测方法,通过捕捉真假视频之间普遍存在的不一致性来区分跨多个领域的真实和伪造视频的时域一致性,实验证明了我们方法在未见过的 Deepfake 领域具有泛化能力。
- 视频面部年龄转换:朝着时间一致的面部年龄转换
视频脸部年龄回溯通过改变人物在视频中的视觉年龄来完成,本文提出了一个新的用于验证视频脸部年龄回溯效果的基线架构,并开发了三个专门用于评估视频脸部年龄回溯技术的时序一致性的新度量指标。综合实验证明,我们的方法在年龄转换和时序一致性方面均优于现 - 基于时间感知的视频人体姿态与形状恢复的改进
通过提出一个 Temporal-Aware Refining Network (TAR),本文探索了对于精确的姿势和形状恢复而言的全局和局部图像特征的时间感知,实现了比现有方法更准确的结果。
- 广泛适用的运动球检测和跟踪强基线
我们提出了一种用于各种运动类别的新型运动球检测和跟踪方法,该方法包括高分辨率特征提取、位置感知模型训练和考虑时间一致性的推理,并将其作为新的 SBDT 基线。我们将基线与 6 种最先进的 SBDT 方法在 5 个来自不同运动类别的数据集上进 - 时间序列数据中的子序列分类的自我网络变换器
我们提出了一种新颖的子序列分类方法,将每个子序列表示为一个自我网络,为模型提供关键的最近邻信息,通过构建时间序列子序列图并强调相邻子序列的时间一致性,在 128 个单变量和 30 个多变量时间序列数据集上实验证明了我们方法的卓越性能,优于其 - 潜在变形:用于零样本视频到视频翻译的一致性扩散潜变量
通过图像扩散模型的生成能力,我们提出了一种名为 LatentWarp 的新的零样本视频 - 视频翻译框架,通过约束查询令牌的时间一致性,在潜在空间中进一步结合了变形操作以约束查询令牌,从而实现了生成视频的视觉时间相干性的提升。
- 多源潜变扩散模型的视频编辑
FLDM 是第一个将现成的图像编辑方法融入视频 LDM 的视频编辑方法,通过在视频 LDM 中应用现成的图像编辑方法,FLDM 能够改善编辑视频的文字对齐和时间一致性。