- 文本到图像矫正流作为即插即用的先验
大规模扩散模型在生成任务中取得了显著的性能。矫正流是一种新的生成模型类别,在各个领域展现出了优越的性能。通过理论和实验证据,我们展示了基于矫正流的方法与扩散模型具有相似的功能,可以作为有效的先验。此外,基于矫正流的先验方法在图像反转方面表现 - CVPR基于价值引导扩散策略的部分可观测环境下的多用途导航
基于部分可观测性的 2D 和 3D 路径规划中,我们提出了一种多功能的基于扩散的方法,通过增加计划预测和状态估计,以及最佳计划选择策略和点云映射技术,优于传统自回归和基于扩散的方法,并实现从 2D 到 3D 的零 - shot 转移。
- TryOn-Adapter:高保真虚拟试穿中高效的细粒度服装身份适配
我们提出了一种有效且高效的框架 TryOn-Adapter,通过细粒度因素的解耦,包括风格、纹理和结构,对服装身份进行精确和高效的控制,并利用训练 - free 的 T-RePaint 策略进一步增强服装身份保存和试穿效果。
- ACDG-VTON:精准和受限扩散生成虚拟试穿
提出了一种独特的训练方案来解决扩散的训练公式中维持输入服装身份的问题,并且通过多衣物试穿单次推断循环实现高质量的放大生成。
- AAAI基于分离的扩散法进行层次空间和时间去噪的 3D 人体姿势估计
提出了一种具有层次空间和时间降噪器的解开扩散式的三维人体姿势估计方法,该方法通过在扩散模型的正向过程中解开姿势并扩散骨长和骨方向,以有效建模人体姿势先验。在反向过程中,通过使用层次相关的空间转换器和层次相关的时间转换器来改进每个关节的层次建 - 基于扩散的粒子 DETR 用于 BEV 感知
融合扩散范式与当前最先进的三维目标检测技术在鸟瞰图中提出了一种基于扩散的对象检测模型,通过对象查询插值技术解决了特定网络结构和匹配策略带来的性能下降问题。在 NuScenes 数据集上的大量实验表明,我们的生成方法相较于确定性最先进方法具有 - 专注于您的指导:通过注意力调节进行细粒度和多指令图像编辑
通过引入 “Focus on Your Instruction (FoI)” 方法,该论文提出了一种基于扩散的编辑方法,能够实现精确和和谐的多指令编辑,优于现有方法的定量和定性评估。
- TPA3D: 快速文本到 3D 生成的三面关注
为了实现快速的文本到 3D 生成,本文提出了 Triplane Attention for text-guided 3D generation (TPA3D),一种基于端到端可训练 GAN 模型。通过对提取的句子和单词级文本特征进行注意力机 - WoVoGen:基于世界体积感知扩散的可控多摄像头驾驶场景生成
基于 4D 世界体积的多摄像头行车场景生成器(WoVoGen)结合额外的显式世界体积,能够生成高质量的街景视频,并便于场景编辑任务。
- 稳定的航空目标检测扩散
针对航空图像的合成数据增强框架,包括通过稀疏到稠密的感兴趣区域提取来弥合语义差距,使用低秩适应(LORA)对扩展训练进行优化,最后使用复制粘贴方法将合成物体与背景组合,为航空对象检测提供了一种细致入微的合成数据方法。
- EDGE++:EDGE 训练和采样的改进
本文提出了对 EDGE 模型的改进,包括引入了一个特定度数的噪声计划,优化了每个时间步骤的活跃节点数量,显著减少了内存消耗,并提出了一个改进的采样方案,通过微调生成过程来更好地控制合成网络和真实网络之间的相似度,实验结果表明,这些改进不仅提 - DreamSpace: 以文本驱动的全景纹理传播梦想您的房间空间
提出了一种新颖的室内场景纹理生成框架,通过联想和模仿技术,以及采用粗到精的全景纹理生成方法和双重纹理对齐,实现了以文本为驱动的纹理生成,具有迷人的细节和真实的空间一致性。
- ICCVStableVideo: 基于文本的一致性感知扩散视频编辑
通过引入时态依赖于现有的文本驱动扩散模型,使其能够生成一致的编辑对象外观,我们解决了扩散模型在自然视频编辑中编辑现有对象时难以保持其外观随时间稳定的问题。通过开发一种新颖的帧间传播机制,利用分层表示的概念将相邻帧的外观信息传播到下一帧,并基 - 反转逆向:基于范例的素描转照片综合,通过随机微分方程无需训练
通过形状增强反转和全控反转的两阶段方法,在例子为基础的素描到照片合成中生成逼真的彩色和纹理的照片。
- ICCVDiffPose:基于视频的人体姿势估计的时空扩散模型
DiffPose 是一种新颖的扩展扩散模型,将基于视频的人体姿势估计作为条件热图生成问题,并通过多组姿势估计的结合以及迭代步骤的调整来提高预测准确性,成功地在 PoseTrack2017、PoseTrack2018 和 PoseTrack2 - ResShift: 图像超分辨率的高效扩散模型通过残差移动
为解决扩散图像超分辨率方法的低推理速度和性能下降问题,我们提出了一种新颖和高效的扩散模型,通过减少扩散步骤的数量,消除了推理过程中的加速要求以及性能恶化,并通过在高分辨率图像和低分辨率图像之间转移残差来显著提高转换效率。实验显示,该方法在合 - 通过近端引导改进负倒装
本文提出了 ProxNPI 方法,通过将 NTI 和 NPI 的概念扩展为一种正则化术语和重建指导来优化 NPI,从而实现对真实图像进行编辑的任务,并在保持训练免费的同时降低了人工伪影。
- AUDIT: 采用潜在扩散模型按照说明进行音频编辑
本研究提出 AUDIT,一种基于潜在扩散模型的指导音频编辑模型,通过三元训练数据(指令、输入音频、输出音频)训练扩散模型,同时利用输入和指令生成输出音频,实现只修改需要编辑的音频,且只需要编辑指令而非完整的目标音频描述,取得了多项音频编辑任 - 基于扩散的表示学习
提出了一种基于扩散的表示学习方法,通过扩展去噪得分匹配框架实现无监督学习;使用此方法学习无限维潜在码,实现半监督图像分类的最优结果,并通过下游任务的表现比较与其他方法的学习表示质量。