- CVPR基于扩散模型的个性化文本图像生成
本文旨在提高高质量图像的合成与精确文字自定义,为图像生成模型的进步做出贡献。我们提出的方法名为 CustomText,利用预训练的 TextDiffuser 模型实现对字体颜色、背景和类型的控制。为了解决小字体渲染的挑战,我们训练了 Con - 去雾遥感与无人机影像:深度学习、基于先验和混合方法的综述
在遥感和无人机应用中,高质量图像是至关重要的,但大气雾霾严重影响图像质量,因此图像去雾成为一个关键的研究领域。本综述超越了传统对基准雾霾数据集的关注点,还探讨了去雾技术在遥感和无人机数据集中的应用,全面概述了这些领域中的深度学习和基于先验的 - 填写 ____ (基于扩散的图像修复流程)
图像修复是将图像中的缺失或故意遮挡部分恢复出来的过程,在现代修复技术中,我们提供了当前主要方法的概述和评估,并着重解决了现有模型在生成过程中缺乏提示和控制能力的问题,并提供了多种实现该功能的方法。最终,通过对生成的高质量图像进行定性检查,我 - AAAINeRF-VPT:通过视角提示调整神经辐射场的学习,学习新的视角表示
NeRF-VPT 是一种创新的方法,通过级联的视角提示调整范式,在不依赖外部指导或复杂技术的情况下,从先前渲染的 RGB 数据中采样作为先验信息,逐步提高渲染图像质量,显著提升基线性能并生成更高质量的新视角图像。
- 资源有限设备中的快速隐式神经表示图像编解码器
通过引入新的混合自回归模型(MARM)和综合网络来显著减少当前 INR 编解码器的解码时间,并提高重建质量,该方法在保持图片质量的同时显著提高计算效率。
- VideoCrafter2:克服数据限制以提高视频扩散模型的质量
基于给定提示生成视频的文本到视频生成旨在生成可信的视频。最近,一些商业视频模型能够生成具有最小噪声、出色细节和高美观分数的视频。然而,这些模型依赖于大规模、经过良好过滤、高质量的视频,而这对社区来说是不可获得的。许多现有的研究工作使用低质量 - PIXART-δ: 快速且可控的图像生成与潜在一致性模型
通过将 Latent Consistency Model(LCM)和 ControlNet 集成到先进的 PIXART-α 模型中,本技术报告介绍了 PIXART-δ,一个文本到图像综合框架。PIXART-δ 结合了 LCM,显著提高了推断 - 超分辨率通过 StyleGAN 规范化潜变量搜索:现实感 - 保真度权衡
通过扩展图像先验并利用潜在空间进行图像重建,本研究旨在实现超分辨率任务中的高保真度和真实感之间的良好平衡。
- 卷积神经网络艺术风格迁移的生成式 AI 模型
该论文综述了一种使用卷积神经网络(CNN)进行风格转换的新技术,通过利用 CNN 学习的深层图像表征,实现了分离和操作图像内容和风格的能力,从而合成了以和谐方式结合内容和风格的高质量图像。
- CMRxRecon:用于加速图像重建竞赛的开放式心脏核磁共振图像数据集
通过发布一个包含来自 300 个受试者的多对比度、多视角、多切片和多线圈 CMR 成像数据的数据集,我们旨在通过引入标准化的评估标准并使数据集免费向研究社区开放来促进最先进的 CMR 图像重建的进展。
- PhotoVerse: 文本到图像扩散模型的无需调整图像自定义
基于用户特定概念和提示创建自定义图像的个性化文本到图像生成技术已崭露头角,但现有方法在个性化方面面临多个挑战。为了解决这些障碍,我们提出了一种创新的方法 - PhotoVerse,在文本和图像领域中融入双分支条件机制,以提供对图像生成过程的 - VIDES: 自然语言和视觉指导下的虚拟室内设计
通过 Virtual Interior Design (VIDES) 系统,利用生成人工智能的尖端技术,我们可以根据用户的文字描述和视觉指导,快速生成和编辑室内场景概念,大大提高生成场景的准确性和一致性,并减少室内设计的技术门槛。
- MM利用外观流驯服扩散模型的高质量虚拟试穿
基于扩散模型的条件修复技术在虚拟试衣中的有效使用,结合了扭曲模块的力量来产生高质量和逼真的虚拟试穿结果。
- 复合扩散 | 整体 >= Σ 部分
该论文介绍了一种名为 Composite Diffusion 的方法,该方法允许艺术家通过自由形式的分段布局来生成高质量图像,以此来实现对图像生成的更大的空间、语义和创造性控制。
- 具有明确转移概率的解耦扩散模型
本文提出了一种名为 DDM 的扩散模型,通过将复杂的扩散过程分解为两个相对简单的过程,来提高生成效果和速度,它通过显式转移概率近似图像分布,并通过标准维纳过程控制噪声路径;文章还提出了一个新的 DPM 训练目标,能够分别预测噪声和图像成分, - DiffFaceSketch: 利用素描引导潜在扩散模型合成高保真人脸图像
该论文介绍了 Sketch-Guided 潜在扩散模型(SGLDM),它是一种基于 LDM 的网络架构,在配对的素描 - 面部数据集上进行训练,可以合成出不同表情,面部配饰和发型的高质量人脸图片。 SGLDM 通过使用 Multi-Auto - 通过潜在转换实现循环一致反事实推论
本研究提出一种新颖的方法 C3LT,它能够自动生成高质量的 CF 图像并且不需要优化时间。该方法采用生成模型的潜在空间中的循环一致性来实现,在 ImageNet 数据集上进行了充分的实验验证。
- CVPRIMAGINE: 图像引导模型反演的图像合成
介绍了一种基于图像反演的方法 --IMAge-Guided model INvErsion(IMAGINE),通过匹配经过训练的分类器中的多层特征表示和外部鉴别器的对抗训练,来从单一训练样本生成高质量和多样化的图像,实现了在维持语义特性约束 - 任意图像风格转移的两阶段同伴规范特征重组
本文介绍了一种基于神经风格迁移的模型,可以生成带有一定风格的高质量图片,无需预先训练的网络。该模型利用一个新的双阶段同行正则化层在潜在空间中重新组合风格和内容,构建了一个自定义图卷积层,提出了一组直接在潜在空间中操作的循环损失,从而实现了端 - CVPRDM-GAN: 动态记忆生成对抗网络用于文本到图像合成
本研究提出一种动态内存生成对抗网络(DM-GAN),用于解决现有文字生成图片方法在生成高质量图像过程中存在的问题。DM-GAN 能够更准确地从文本描述生成图像,其中一个动态内存模块被引入以完善模糊的图像内容,并通过一个内存写入门来选择重要的