- ICML大规模海冰模型的扩散模型研究
我们首次开展了用于多元和北极范围海冰状态的无条件生成的扩散模型研究。通过在潜空间中进行扩散以降低计算成本,同时将物理知识整合到生成过程中,我们定制了适用于海冰物理学的潜空间扩散模型,采用数据空间中的被修剪的高斯分布来生成遵循模型变量物理边界 - TimeAutoDiff:结合自动编码器和扩散模型的时序表格数据合成
通过结合变分自动编码器(VAE)和去噪扩散概率模型(DDPM)的思想,我们提出了一种名为 TimeAutoDiff 的模型,用于生成时间序列表格数据。该模型能够处理各种类型的时间序列表格数据,具有良好的保真度和实用性,并且在生成速度上有显著 - 基于相类模型的参数化和数据同化的潜隐式扩散模型
地质参数化中使用低维潜变量进行降维,结合扩散模型和隐含扩散模型,通过去噪实现从含有噪声的输入场生成新的地质实现,该模型经过稳定性测试,并用于基于集合的数据同化,实现了显著的不确定性降低和一致的地质模型。
- ARDuP:Active Region 视频扩散技术的通用策略
基于文本定义目标的视频规划器生成未来帧以可视化计划行动,从而导出控制行动,本文介绍了一种名为 ARDuP (Active Region Video Diffusion for Universal Policies)的视频策略学习框架,通过强 - CVPR量化扩散变压器分析
通过分析扩散变换器中激活和权重量化的挑战,我们提出了一种单步采样校准激活和适应分组量化权重的低比特量化方法,从而在无需任何优化的情况下在纯变换器结构上实现了高效的后量化,我们通过初步的条件图像生成实验展示了所提出方法的效率和有效性。
- 超越可见范围:用 HSI 扩散联合关注光谱和空间维度的 FINCH 太空飞船
利用潜在扩散模型集成空间和光谱信息,提出了一种新的高光谱图像去噪方法,通过在真实数据集和合成数据集上进行三阶段训练,保留图像结构同时降低噪声。在常见高光谱去噪数据集和 FINCH 任务的合成数据集上的评估表明了这种方法的有效性。
- 条件图像生成模型的一致性 - 多样性 - 现实性 Pareto 前沿
构建准确全面地代表真实世界的世界模型是有条件的图像生成模型的最高追求,本文使用最新的文本到图像和图像到图像的模型及其问题来绘制一种提供严谨保守性,多样性和真实性多目标的一体化视图的一致性 - 多样性 - 真实性 Pareto 前沿,我们的实 - 稳定材料:通过半监督学习增强材料生成的多样性
使用 Semi-supervised learning 和 Latent Diffusion Models(LDMs)的 StableMaterials 方法,通过对抗训练从现有大规模图像生成模型中提取知识,生成与 SDXL 模型的图像纹理 - 数据集增强与实例级别的数据扩充
本研究提出了一种使用预训练的潜在扩散模型来扩充数据集的方法,并引入了实例级数据增强的概念。该方法通过重新绘制场景内的个别对象来改善卓越的显著目标检测、语义分割和物体检测模型的性能和泛化能力,并在需要数据匿名化时,通过重新绘制隐私敏感实例来实 - 潜在表示的重要性:一次性绘画任务中的人类般素描
通过研究不同归纳偏差对潜在扩散模型 (Latent Diffusion Models, LDMs) 的潜在空间的影响,我们发现具有减少冗余和基于原型的正则化的 LDM 几乎能够产生接近于人类的图画,使其在样本的可识别性和原创性方面更好地模拟 - MLCM: 多步一致性蒸馏的潜态扩散模型
将大型潜在扩散模型(LDMs)提炼为快速采样模型是一个备受关注的研究领域,本文通过扩展最新的多步一致性提炼(MCD)策略,建立了用于低成本高质量图像合成的多步潜在一致性模型(MLCM)。MLCM 通过与强调联合段一致性的渐进训练策略相结合, - GenzIQA:使用提示引导的潜在扩散模型进行通用图像质量评估
通过理解可学习的质量感知文本提示与图像之间的对齐程度,我们利用潜在扩散模型的降噪过程对广义图像质量评估进行了改进。
- 通过食物理解扩散概念代数的局限性
通过食品图像领域的研究,我们分析了一个横跨概念的技术中的定性和定量模式,揭示了模型捕捉和表示烹饪多样性的能力以及模型偏见和限制的存在。
- 利用合成标题改进图像文本生成
通过使用 SDXL,我们提出一种低成本的微调技术来改善不同情况下文本生成的准确性,并通过将随机字符添加到原始数据集中来提高模型在生成良好形式视觉文本方面的性能。
- 学习潜在层次模型中的离散概念
从高维数据(例如图像)中学习概念对于构建与人工智能模型相符且可解释的机器学习模型具有潜力。本研究通过将概念形式化为离散潜在因果变量,并使用嵌入在高维数据中的概念的层次因果模型来提供理论洞见与条件,以促进从无监督数据中学习这些概念的可行性。通 - Sp2360:使用级联 2D 扩散先验进行稀疏角度 360 场景重建
通过使用潜在扩散模型(LDM)的先验来解决 360 度 3D 场景的稀疏视图重建问题。我们展示了通过预训练的 2D 扩散模型经过精细调整可以大幅提高场景重建的方法 SparseSplat360(Sp2360),该方法通过级联修补和伪影移除模 - LiteVAE:轻量高效的变分自编码器用于潜在扩散模型
通过引入 LiteVAE,一种基于 2D 离散小波变换的自编码器家族,我们在维持输出质量的同时提高了可扩展性和计算效率,基本 LiteVAE 模型在高分辨率图像生成方面与现有的 VAEs 相当,但编码器参数减少了六倍,导致更快的训练速度和更 - 通过潜在扩散模型从脑电数据中的自然音乐解码
使用潜在扩散模型重构音乐,利用非侵入性脑电图数据进行训练并提出神经嵌入度量标准,同时进行生成曲目的歌曲分类,从而探究使用脑电图数据进行复杂听觉信息重构的可行性。
- 连续布朗桥扩散下的帧内插值
通过使用连续的布朗桥扩散方法,我们提出了一种解决帧插值中图像随机生成而非确定性生成的问题的独特方法,实验证明该方法能够在视频帧插值中取得最先进的性能,并具有进一步改进的强大潜力。
- DiffuseTrace:一种透明且灵活的潜在扩散模型水印方案
通过使用 DiffuseTrace 技术,我们可以在所有生成的图像中嵌入无形的水印,以便进行未来的语义检测,而不会损害图像质量。