我们提出了一个生成模型,根据粗略编辑的图片合成一个遵循预定布局的逼真输出,并从原始图像中转移细节,同时保留其部分的身份信息,并将其调整到由新布局定义的光照和上下文。
Mar, 2024
该论文提出了一种全新的任务 —— 在 SINGLE 语义标签地图的条件下生成视频,这在生成过程中提供了灵活性和质量的良好平衡。通过将这一难题分解为两个子问题,并将语义标签图集成到流预测模块中以达到主要改进,该方法做出了优异成果,击败了所有竞争对手。
Mar, 2019
通过 DrivingDiffusion 框架,在复杂的城市场景中生成大规模、逼真的多相机自动驾驶视频,无需额外成本。
Oct, 2023
Layout2Im 是一种基于布局的图像生成方法,将物体表示分解为指定和不确定部分,并使用卷积 LSTM 编码并解码整个布局,以生成准确且多样化的图像,提高了最佳 Inception 分数 24.66%至 28.57%。
Nov, 2018
本文提出了非参数基线方法来解决单个视频生成及操作任务,相较于传统的基于 GAN 的方法能提供更高的性能和更快的运行速度,并且在视频类比和时空重新定位等方面表现突出。
May, 2022
通过无监督学习方法,提出了一种基于分解动态物体运动和相机运动的动态视图合成方法,包括非监督表面一致性和基于路径的多视图约束,可实现准确的 3D 运动建模,从而提高合成质量并相比现有方法精确地生成场景流和深度
Apr, 2023
基于单目视频的全局静态场景模型和逐帧点云的动态内容的混合视频表示方法能够实时合成高质量的新视图,并且训练速度比现有方法快 100 倍。
Dec, 2023
利用背景场景和移动物体的非刚性变形和仿射变换对未来视频帧进行预测,实现较低的变形失真,并在 Cityscapes 和 KITTI 数据集上呈现更高的视觉质量和准确性。
Apr, 2020
提出一种基于变分生成模型和场景图条件的端到端场景布局合成方法,并使用可微分渲染模块优化生成的布局。实验表明,该模型可以更精确和多样地进行条件场景合成,并允许从各种输入形式生成样本化场景。
Jul, 2020
DreamScene4D 是一种能够从野外单眼视频中生成多个物体的三维动态场景的方法,通过设计 “分解 - 重组” 方案,将视频场景及每个物体的三维运动进行分解,并使用开放词汇遮罩跟踪和适应性图像扩散模型对视频中的物体和背景进行分割、追踪和完整修复。
May, 2024