现有大规模扩散模型受限于生成 1K 分辨率图像,本文提出基于渐进方法的创新研究,在不增加额外训练成本的情况下,利用低分辨率图像辅助生成高分辨率图像,实现了对生成模型超越原有能力的探索和验证。
Jun, 2024
HoloFusion 是一种结合了不同方法的 3D 生成模型,通过从多角度 2D 图像中学习,生成高保真度、可信度和多样性的 3D 样本,包括超分辨率网络和 CO3Dv2 数据集的对比实验。
Aug, 2023
通过在预训练的自编码器的潜在空间中应用扩散模型,引入交叉注意力层到模型体系结构中,以更少的计算要求取得接近最优的性能,实现高分辨率合成,缩小像素级 DMs 对计算资源的需求。
Dec, 2021
该研究将 LDM 范例应用于高分辨率视频生成中,利用图像生成器实现视频生成,利用时间维度对视频超分辨率模型进行精细调整,验证其在真实驾驶视频上的表现,且可将 LDM 应用于文本到视频模型中。
Apr, 2023
本文提出了一种两阶段的框架,用于加速合成高分辩率图像的训练过程,其通过已训练好的编码器和解码器网络将高分辨率图像变换为小编码,并通过训练一种编码生成网络学习潜在编码的分布,生成器只学习生成小的潜在编码,最后通过解码器网络将生成的潜在编码转化为图像空间,提高了合成样本的质量,并在可用硬件资源的限制下大幅缩短了训练时间。
Sep, 2019
本研究提出了一种潜在扩散模型用于 3D (LDM3D),可以从给定的文本提示生成图像和深度图像数据,使用生成的 RGB 和深度图像可以创建令人沉浸的和交互性 360 度视图体验,有潜力革新娱乐、游戏、建筑和设计等行业。
May, 2023
基于视图空间和潜在扩散模型的 3D 感知图像合成方法,通过压缩潜在表示学习图像的 3D 结构,实现高质量的 3D-consistent 图像合成,无需多视角或 3D 几何的直接监督,不依赖于规范化的相机坐标。
Nov, 2023
该论文介绍了 GenImage 数据集,该数据集拥有超过 100 万对人工智能生成的假图像和真实图像,且具有丰富的图像内容和最先进的生成器,通过该数据集,研究人员可以有效加快相对于现有方法的优越人工智能生成图像检测器的开发和评估。
Jun, 2023
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022
通过结合空间和谱域信息的双 FNO UNet 架构,我们提出了一种利用操作学习技术的新型深度学习架构,该架构可以在多个分辨率上近似计算分数算子,实现了同时训练多个分辨率的众多优势,使得 DFU 能够在没有训练数据的情况下一致、高保真地进行更高分辨率的图像生成,进一步提高了该模型的零样本超分辨率图像生成能力。