- 单步反向过程稳定的生物医学图像扩散分割
通过稳定扩散(SD)模型,我们引入了第一个潜伏扩散分割模型 ——SDSeg,该模型在医学图像分割中克服了资源和时间需求大、多步反向过程和多个样本预测可靠性等挑战,实验证明它在包含不同成像模态的五个基准数据集上胜过现有的最新方法。
- FakeInversion: 通过反转稳定扩散学习检测从未见过的文本图像模型生成的图像
由于 GenAI 系统滥用的潜力很高,检测合成图像的任务最近备受研究界的关注。本文提出一种利用反转开源预训练的稳定扩散模型获取的特征的新型合成图像检测器。我们展示这些反转特征使得我们的检测器能够很好地泛化到高视觉保真度的未知生成器上(例如, - AID:适应图像到视频扩散模型用于指导视频预测
基于文本和初始帧,我们引入多模态大型语言模型 (MLLM) 来预测未来的视频状态。通过设计双查询 Transformer (DQFormer) 架构,并利用长短期时间适配器和空间适配器来快速转换通用视频扩散模型,我们的方法在四个数据集上明显 - CUT:一个可控、通用且无需训练的视觉异常生成框架
通过使用一个能够生成多样化和逼真异常样本的稳定扩散图像生成框架(CUT),我们提出了一种可控、通用且无需训练的视觉异常生成方法。通过在视觉 - 语言异常检测框架(VLAD)中使用 CUT 生成的异常样本进行训练,我们在多个基准异常检测任务上 - 通过实施合成图像数据集创建流程进行视觉汽车品牌分类
利用 Stable Diffusion 进行合成图像数据集,通过 YOLOv8 自动边界框检测和质量评估,演示了仅使用合成数据训练图像分类器的可行性,并自动化了图像生成流程。
- 一步文本图像生成中的长短导向分数身份蒸馏
通过发展长短分类器无指导(LSG)的方法,我们改进了基于得分身份蒸馏(SiD)的稳定扩散模型,该模型在不使用真实训练数据的情况下,通过单步生成器合成的虚假图像进行培训,迅速提高了 FID 和 CLIP 得分,实现了最先进的 FID 性能,并 - PoseCrafter:灵活姿态的一次性个性化视频合成
该论文介绍了 PoseCrafter,一种根据灵活姿势控制进行个性化视频生成的单次方法,通过稳定扩散和 ControlNet 构建,通过精心设计的推理过程,生成高质量视频而无需对应的真实帧。
- CVPRTriLoRA:在文本到图像生成中集成 SVD 的高级风格个性化
综合奇异值分解(Singular Value Decomposition)与低秩适应(Low-Rank Adaptation)参数更新策略,提高图像生成模型的微调效率和输出质量,改善模型的泛化能力和创造性灵活性,同时在受限资源条件下保持良好 - 远程扩散
利用 RSICD 數據集訓練了具有 0.2 損失的 Stable Diffusion 模型,並通過合成數據集和定制遙感 LLM 進行了 Land Use Land Classification 任務,但由於標題質量和模型表現的挑戰,生成的圖 - CVPR室内全景自动去除家具
提出了一种利用稳定扩散的流程来改进室内全景图像中家具移除的修复结果,通过增加上下文、领域特定模型微调和改进的图像融合,产生几何可信的高保真修复效果,无需依赖于房间布局估计,展示了相对其他家具移除技术的定性和定量改进。
- CVPR使用扩散模型在图像中自动进行虚拟产品放置和评估
介绍了一种新颖的三阶段全自动虚拟产品放置系统,通过语言引导图像分割模型识别出图像中适合进行产品修复的区域,并使用经过微调的 Stable Diffusion 算法将产品修复到先前识别出的候选区域中,最后引入一个 “对齐模块” 有效地筛选出质 - 稳定扩散的交互式视觉学习
Diffusion Explainer 是第一个交互式可视化工具,通过动画和交互元素全面解释了 Stable Diffusion 如何将文本提示转化为图像。这个工具不需要安装或专门硬件,通过用户的 web 浏览器访问,旨在推动人工智能教育的 - CVPR不要想粉色大象!
通过分析近期的大型模型,本文展示了它们与人类智能共享的 “白熊现象” 的脆弱性,并提出了基于提示的攻击方法和认知治疗技术启发的防御策略,成功地减轻了攻击效果高达 48.22%。
- CVPREdgeFusion:设备端文本到图像生成
通过对稳定扩散(SD)的高效计算负担进行改进,我们提出了两种策略,即利用先进的生成模型和为 LCM 定制的先进蒸馏流程,通过量化、剖析和资源有限的边缘设备上的部署,实现了在仅两步、低于一秒的延迟下,生成具有照片写实风格、与文本对齐的图像。
- CVPRTiNO-Edit: 时间步长和噪声优化用于稳健扩散式图像编辑
通过对噪音模式和扩散时间步进行优化,本文提出了基于 SD 的 TiNO-Edit 方法,其能够生成与原始图像更加吻合且符合预期结果的编辑结果,同时在 SD 的潜在域中提出了一组新的损失函数来加速优化过程。
- CVPR驯服文本到 360° 全景图像生成的稳定扩散
通过双分支扩散模型 PanFusion,从文本提示生成 360 度全景图像,并使用投影感知的独特交叉注意机制提供协作降噪过程中的最小畸变。
- CVPRInitNO:通过初始噪声优化来提升文本到图像扩散模型
本研究旨在解决生成图像与提供的提示之间的无缝对齐问题,通过引入 “初始噪声优化”(InitNO)方法,通过评估初始噪声,并通过噪声优化来生成符合文本提示的图像。
- 过时扩散:利用老派方法生成逼真的 5D 电影
通过在稳定扩散中满熵状态下固化和钙化的方法,我们提出了稀泥扩散,该方法在生成具有超人类数量手指的图像方面实现了超人类性能。
- TextCraftor: 您的文本编码器可以成为图像质量控制器
通过提出的 fine-tuning 方法 TextCraftor,我们可以增强 Stable Diffusion 使用的 CLIP 文本编码器,从而在定量基准和人类评估方面实现了显著改进,并且我们的技术还通过不同奖励的细调文本编码器的插值使 - MEDDAP:通过多样化增强流程来增强医疗数据集
通过结合稳定扩散模型和超声波应用的精调方法,MEDDAP 管道能够扩充现有的小数据集,并生成具有信息量的标记样本,同时 USLoRA 方法在稳定扩散模型中实现选择性精调权重以提高数据集多样性,并在处理未知数据集时表现出卓越性能。