置入任何物品的视频
提出了一种适用于现实视频模拟的通用框架,该框架通过整合真实对象、估计天空和环境光照分布、以及使用风格转移网络来实现几何真实性、光照真实性和照片真实性的增强,从而有效且经济地获得高质量的视频。
Jan, 2024
SwapAnything 是一种能够始终保持上下文不变的交换个性化概念的新颖框架,通过目标变量交换和外观适应,实现了精确控制任意对象和部分对象以及对个性化概念的忠实保留,在个性化交换方面取得了显著改进,并且在单个对象、多个对象、部分对象和跨域交换任务中展现了精准且忠实的交换能力,同时在基于文本的交换和其他插入物体等任务上也取得了巨大的性能提升。
Apr, 2024
本文提出了一种新的视频操作问题,使用神经网络来插入不同对象运动和复杂背景中的目标视频,通过合成真实和虚假的训练数据训练并使用注入噪声的方式稳定训练,实验结果表明该算法可以成功地合成真实的视频。
Mar, 2019
该研究提出了一个名为 Adverts 的框架,可以感知场景和摄像机运动的三维几何形态,将 3D 虚拟物体混合到视频中以创建现实幻觉来推广产品。该框架包含多个模块,可以解决不同的技术难题。实验结果表明 Adverts 框架在通过混合现实技术融合内容上具有巨大潜力,可以推动广告业的发展。
Jun, 2020
我们提出了一个生成模型,根据粗略编辑的图片合成一个遵循预定布局的逼真输出,并从原始图像中转移细节,同时保留其部分的身份信息,并将其调整到由新布局定义的光照和上下文。
Mar, 2024
AnyV2V 是一个无需训练的框架,通过使用现有的图像编辑工具和图像到视频生成模型,支持各种视频编辑任务,包括基于参考样式的转换、主题驱动编辑和身份操纵,并在性能方面超越了传统方法。
Mar, 2024
本文提出了 Anything-3D 框架,采用了一系列视觉语言模型和 Segment-Anything 对象分割模型来实现从单个 RGB 图像到 3D 重建的任务,并通过实验验证了其有效性和可靠性。
Apr, 2023
该研究提出了一种新的交互视频生成和操作方法 ——Playable Environments,该方法包括无监督学习、神经辐射场和体积渲染等技术,可以通过提供操作序列,控制相机视角和增强视频外观等手段,生成可玩的三维视频。
Mar, 2022
ActAnywhere 是一种生成式模型,可以自动调整与前景主体运动相吻合的视频背景,同时遵循艺术家的创意意图,通过使用大规模视频扩散模型进行训练,它可以根据前景主体分割的序列和描述所需场景的图像作为条件,生成具有真实的前景 - 背景交互并符合条件帧的连贯视频,在广泛的评估中表现出比基准模型显著优越的性能,且具有泛化到各种样本的能力,包括非人类主体。
Jan, 2024