- 基于模型和数据的视觉定位学习
SynGround 是一个结合数据驱动学习和知识传递的新框架,通过模型间的知识传递增强预训练的视觉语言模型的视觉定位能力,并通过合成图像和文本来提高模型性能,最终在多个数据集上展示出提升。
- 仅需采样一次:通过自协同扩散生成对抗网络驯化单步文本到图像合成
YOSO 是一种新颖的生成模型,通过将扩散过程与 GANs 集成,实现快速、可扩展和高保真度的一步图像合成。我们展示了 YOSO 作为一步生成模型在从头开始的训练中具有竞争性能,并且可以扩展到通过 LoRA 微调高质量的一步文本到图像合成。 - HOIDiffusion: 生成真实的三维手物体交互数据
利用 HOIDiffusion 方法生成了逼真且多样化的三维手物体交互数据,并将其用于学习 6D 物体位姿估计,提高感知系统的效果。
- 语义占用地图中的城市场景扩散
利用 Bird's-Eye View 地图条件的 3D 扩散模型 UrbanDiffusion 生成具有几何和语义的城市场景,并通过训练实际驾驶数据集,该模型能够生成多样性的城市场景,进一步将生成的场景扩展到任意规模,并通过预训练的图像生成 - SemanticHuman-HD: 高分辨率语义解耦三维人物生成
本研究提出了 SemanticHuman-HD 方法,它是首个能够实现语义分解的人体图像合成方法,并且能够在 1024^2 分辨率下实现 3D 感知图像合成,通过借助深度图和语义掩膜作为 3D 感知超分辨率的指导,在体素渲染过程中显著减少采 - ICLR潜在扩散模型的人类对齐分析
在这项工作中,我们分析了大规模数据训练的扩散模型对于三选一任务中人类响应的表示对齐情况,发现尽管其与人类响应的对齐程度与仅在 ImageNet-1k 上训练的模型相当,但去噪 U-Net 的对齐层主要为中间层而非瓶颈层,而且文本条件对于高噪 - PEPSI:病理学增强的脑 MRI 脉冲序列不变表示
提出了 PEPSI 方法,一种病理增强和脉冲序列不变的脑部 MRI 特征表示学习模型,它能够合成高分辨率的对比度参考图像和突出显示病变的图像,显示了其在图像合成和病变分割方面的出色能力。
- CVPRDiff-Plugin:为基于扩散的低层任务注入新的细节
通过 Diff-Plugin 框架,利用扩展的扩散模型能够以高保真度完成多个低水平任务,通过轻量级的 Task-Plugin 模块提供任务特定的先验知识并根据自然语言指令自动选择不同的 Task-Plugin 进行图像编辑。
- SynArtifact: 通过视觉语言模型对合成图像中的伪影进行分类和缓解
通过使用 Vision-Language Model 作为 artifact 分类器,对合成图像进行细化,通过反馈机制改善生成模型,从而降低合成图像中的复杂伪影。
- 用于增强宫颈异常筛查的两阶段细胞病理图像合成
通过两阶段图像合成框架,本论文提出了一种用于增强宫颈异常筛查的合成数据方法,包括生成充满正常宫颈细胞的细胞病理图像和将正常细胞转化为不同类型的异常细胞,以提高宫颈异常细胞检测的性能。
- 通过重叠优化训练类不平衡的扩散模型
使用对比学习方法最小化不同类别合成图像分布之间的重叠,以改善长尾分布数据集中稀有类别的图像合成质量,并证明该方法能够有效处理基于扩散的生成和分类模型中的不平衡数据。
- ICLR噪声图引导:基于空间上下文的真实图像编辑反演
通过噪声地图引导的方式,我们提出了一种适用于真实图像编辑的反演方法,它具备空间上下文且无需优化,保持了良好的编辑质量。
- 基于 WiFi 信道状态信息的穿墙成像
使用 WiFi Channel State Information(CSI)进行图像合成,通过墙壁场景下的图像监测方法来改进 WiFi CSI 的可解释性并实现基于图像的下游任务,如视觉活动识别。
- DiffusionGPT: 基于 LLM 的文本到图像生成系统
DiffusionGPT 结合了扩散模型、文本到图像系统和领域特定树,提供了一个统一的生成系统,能够适应各种类型的提示并集成领域专家模型,推动了多领域图像合成的边界。
- 对光场数据进行正常图修复
本研究介绍了一种使用生成对抗网络(GAN)修复法线贴图的新方法,该方法通过推断生成虚拟数据,并结合了损失函数的修改以适应特定的数据特征,实现了高质量逼真的修复结果,适用于表演捕捉等应用。
- 得分蒸馏采样与学习的流形校正
Score Distillation Sampling 方法使用图像扩散模型解决优化问题,我们分析了其损失函数并提出有效修复方案,通过定量和定性实验验证了新的损失公式的多样性和有效性。
- 改善基于扩散的图像合成
Diffusion models for image synthesis are improved using ConPreDiff, a method that incorporates context prediction, achie - 基于遗传算法的医学图像生成的生成模型
医学成像是诊断和治疗疾病的重要工具,缺乏医学图像可能导致不准确的诊断和无效的治疗。生成模型通过从现有数据集中生成新数据并检测其中的异常来解决医学图像短缺问题。本文提出了 GAN-GA,一种通过嵌入遗传算法进行优化的生成模型。该模型在保留独特 - 贝尔曼最优步长的流匹配模型直线化
Bellman Optimal Step-size Straightening (BOSS) technique improves flow-matching generative models by optimizing step siz - DeepArt: AI-Generated 内容的提升忠实度研究基准
该研究探索了领先的多模态大型语言模型 GPT-4 的图像合成能力,并建立了一个基准来评估 GPT-4 生成的图像中纹理特征的保真度,包括手工绘制的图片和其 AI 生成的对应物。该研究的贡献有三个方面:首先,我们深入分析了基于 GPT-4 的