- 利用扩散先验生成钢表面缺陷图像样本,用于缺陷识别
针对钢表面缺陷图像生成的数据不足问题,提出了一种稳定的钢表面缺陷图像生成方法,通过在生成过程中对数据分布进行参数调整和采用钢表面图像导向的生成方法,以解决钢表面图像与生成图像的分布差异问题,并在钢表面缺陷数据集上展示了出色的样本生成和识别模 - DiffMap: 使用扩散模型增强地图分割中的地图先验
构建高清地图是实现自动驾驶的关键需求之一。本研究提出了 DiffMap,一种利用潜在扩散模型对地图分割掩码的结构先验进行建模的新方法,可以提高语义分割方法的性能并有效修正分割输出中的结构错误,进而改进生成地图的质量。通过广泛的可视化分析,我 - 从 3D 高斯飞溅重构的 Bootstrap 3D 场景
我们的研究论文提出了一种基于扩散模型的引导方法,通过改进经过训练的 3D-GS 来增强新视角的渲染效果,显著减少了伪影,并在评估指标上获得明显的改进。此外,我们的方法具有通用性,可以轻松整合到各种 3D 重建项目中。
- FlexiFilm: 长视频生成与灵活条件
本研究介绍了一种针对生成长视频的新扩散模型 FlexiFilm,通过引入时间条件器和重新采样策略,实现了更一致的生成效果和解决过度曝光问题。实证结果表明 FlexiFilm 在定性和定量分析中优于竞争对手,能够生成超过 30 秒的长且一致的 - 改进的无需训练的条件扩散模型的费舍尔信息
我们提出了一种利用费舍尔信息引导的扩散模型 (FIGD),通过引入费舍尔信息来估计梯度,以减少计算成本,并确保 FIGD 的泛化性,为基于信息论的无训练方法提供新的训练思路。实验结果表明,FIGD 能够更快地实现不同条件图像的生成而保持高质 - 少样本书法风格学习
通过预训练扩散模型在不同书法家作品的多样数据集上以及在包含将近 200 张徐院长书法作品的较小特殊数据集上进行微调,引入了创新的字体图像和笔画信息条件技术,并展示了与 zi2zi 和 CalliGAN 等传统方法相媲美的性能、更小数据集和较 - FilterPrompt:在扩散模型中引导图像传输
我们提出了 FilterPrompt 方法,通过在像素空间中对输入图像的特定特征分布执行图像处理操作,从而实现对生成结果的精确控制效果。该方法可以广泛适用于任何扩散模型,让用户根据任务要求调整特定图像特征的表示,从而促进更精确、可控的生成结 - RadRotator:基于扩散模型的根管 X 射线片的三维旋转
利用扩散模型技术将二维图像转化为三维体积,从医学角度解决了之前研究中的两个限制,并通过像素强度随机变换训练和推断,使得扩散模型能在传统射线照片上进行可靠的深度学习
- MCM:多条件运动合成框架
提出了基于双分支结构的多条件人体运动合成(MCM)框架,其中主分支采用基于 Transformer 的扩散模型(MWNet),有效扩展了扩散模型的适用性,同时保持运动的固有质量和语义关联能力。在单条件和多条件人体运动合成任务中实现了有竞争力 - IJCAI通过稳定扩散的步态感知和层级感知提示实现高度逼真的艺术风格转换
提出了一种名为 LSAST 的新型基于预训练扩散的艺术风格转换方法,能够生成高度逼真的艺术化风格图像,并在保留输入图像的内容结构方面表现出较好的效果,而不引入明显的伪影和不协调的风格图案。
- SSDiff: 遥感全色增强的空间光谱综合扩散模型
这篇论文介绍了一种用于遥感全色增强任务的空间 - 光谱集成扩散模型 (SSDiff),该模型通过子空间分解的视角将全色增强过程视为空间和光谱成分的融合过程。SSDiff 利用空间和光谱分支分别学习空间细节和光谱特征,然后采用设计的交替投影融 - 使用卫星的深度扩散模型进行四小时雷暴现场预测
提出了基于人工智能的对流早期预警系统,通过采用扩散模型与地球同步卫星数据,极大地提升了对流云的预测能力,达到了新的高度。
- Portrait3D: 基于金字塔表示和 GANs 先验的高质量 3D 肖像生成
使用神经渲染基于文本到 3D 肖像生成的新方法,通过集合几何外观先验,实现了对之前的问题 - 几何困境、过度饱和和过度平滑 - 的克服,展示了生成与文本一致的逼真高质量 3D 肖像的新框架 Portrait3D。
- OmniSSR:零样本全向图像超分辨率利用稳定扩散模型
通过使用稳定扩散模型的图像先验,将全向图像超分辨率与保真度和真实感相结合,实现了零样本学习,无需训练或微调。在两个基准数据集上的实验证明了该方法的有效性。
- GazeHTA: 基于头部 - 目标关联的端到端凝视目标检测
我们提出了一种端到端的方法来检测凝视目标:预测个体和他们正在注视的目标图像区域之间的头目标连接。我们的实验结果表明,GazeHTA 在两个标准数据集上优于最先进的凝视目标检测方法和两个改进的基于扩散的基准模型。
- 利用个人信息生成人类互动
生成人际动作互动可以根据文本描述,应用于机器人、游戏、动画和元宇宙等多个领域;本文提出了在人际动作生成中困扰的问题以及解决方案,包括使用扩展了 InterHuman 数据集的 in2IN 扩散模型以及结合 in2IN 和 HumanML3D - 神经辐射场修复的潜在扩散模型驯服
我们提出了一种新的框架,通过对扩散模型的温和性进行个性化设置并使用掩蔽对抗训练来缓解图像条件中的文本移位问题,从而解决了使用 NeRF 进行重建时遇到的几个问题,并在各种真实场景上实现了最先进的 NeRF 修复结果。
- 扩散模型中的精细颜色引导及其在极低比特率图像压缩中的应用
该研究提出了一个在不使用训练或调整技术的情况下,控制扩散模型生成图像中全局颜色方面的挑战。通过修改指导方程,确保输出更接近已知的颜色映射,同时不影响生成图像的质量。该方法得到了新的指导方程。研究表明,在颜色指导上,指导的缩放不应该随着扩散过 - COLINGDiffusionDialog:擴散模型用於具有潛在空間的多樣對話生成
DiffusionDialog 是一种新的方法,通过引入扩散模型来增强对话生成的多样性。在该方法中,我们将连续潜变量引入扩散模型,通过与编码器结合,将响应的潜在表示编码为连续空间的先验,并通过扩散模型逐步去噪来推断潜变量。实验结果表明,我们 - Text2Grasp: 文本提示下的物体抓取部位的抓取合成
以对象抓取部分的文本提示为引导,提出了一种文本引导的抓取合成方法,该方法包括一个文本引导的扩散模型 TextGraspDiff 和一个手 - 物体接触优化过程,以确保合理性和多样性,实验结果验证了该方法在精确的部位级别抓取控制和抓取质量方面