- 基于能量模型的最大熵逆强化学习中的扩散模型
我们提出了一种最大熵反向强化学习 (IRL) 方法,用于改善扩散生成模型的样本质量,尤其是在生成时间步骤较少的情况下。通过训练或微调扩散模型,我们使用从训练数据估计的对数概率密度来训练(或微调)扩散模型。我们采用基于能量的模型 (EBM) - 4Diffusion: 多视角视频扩散模型的 4D 生成
我们提出了一种新颖的 4D 生成管道,名为 4Diffusion,旨在从单目视频中生成空间时间一致的 4D 内容。通过将可学习的运动模块与冻结的 3D 感知扩散模型结合,我们设计了一个为多视图视频生成量身定制的统一扩散模型,以捕捉多视图空间 - ComboStoc: 扩散生成模型的组合随机性
本文研究了扩散生成模型中一个被忽视但重要的因素,即组合复杂性。我们展示了通过构建充分利用组合结构的随机过程来解决该问题,从而加速了网络训练,并使得测试时间生成具备根据不同维度和属性的变化程度调控的能力。
- 图生成的离散状态连续时间扩散
本文提出了一种离散状态连续时间设置的图扩散生成模型,该模型在以前的图扩散模型中从未被研究过。分析表明,我们的训练目标与生成质量密切相关,我们提出的生成框架在节点排序的排列方面具有理想的不变 / 等变特性。我们的模型在各种基准测试中表现出有竞 - 基于不完整的井和成像地震观测数据的生成地统计建模与扩散模型
本研究介绍了一种使用扩散生成模型合成地下速度模型的新方法。该方法利用不完整的井和地震观测产生高保真度的速度样本,而无需完全采样的训练数据集。结果表明,我们的生成模型准确捕捉到了长距离结构,与地面真实速度模型一致,获得了高结构相似性指数(SS - 扩散 - 哈密尔顿蒙特卡罗:用扩散模型驱动的参数推断
使用单一的扩散生成模型作为宇宙学参数推断模型和冷暗物质密度场的代码模拟器,旨在通过近似似然推断给出对宇宙学参数的严格约束,并展示这种参数推断方法较基准参数推断网络更具鲁棒性。
- 视频扩散模型:综述
扩散生成模型对于生成和修改连贯、高质量视频的技术已经变得强大,本调查对视频生成中的关键元素进行了系统概述,包括应用、架构选择和时态动力学建模。最近该领域的进展被总结并归类为发展趋势,调查最后总结了尚存的挑战并展望了该领域的未来。
- 扩散生成模型的最近邻评分估计器
评分函数估计是训练和采样扩散生成模型的基石。我们引入了一种利用训练集中的多个样本来大幅降低估计方差的新型最近邻评分函数估计器,并将其应用于一致性模型训练中,加快收敛速度并提高样本质量。在扩散模型中,我们展示了该估计器可以替代学习网络用于概率 - 宇宙场模拟与扩散模型的参数推断
以宇宙学为背景,利用扩散生成模型进行冷暗物质密度场的模拟,研究宇宙学参数和功率谱之间的关系以及参数推断的准确性。
- DFU:零射术超分辨图像生成的规模鲁棒扩散模型
通过结合空间和谱域信息的双 FNO UNet 架构,我们提出了一种利用操作学习技术的新型深度学习架构,该架构可以在多个分辨率上近似计算分数算子,实现了同时训练多个分辨率的众多优势,使得 DFU 能够在没有训练数据的情况下一致、高保真地进行更 - 文本和图像引导的 4D 场景生成的统一方法
通过使用扩散生成模型,我们提出了 Dream-in-4D 方法,可以有效地实现从文本和图像生成动态的 3D 场景,该方法包括利用扩散指导学习高质量的静态 3D 资源、使用可变形神经光辐射场将学习的静态资源与形变分离、以及使用多分辨率特征网格 - 加速蛋白质结构潜在表征分子扩散模型的推断
使用扩散生成模型结合图神经网络,利用分子结构的潜在表示进行蛋白质结构的训练和优化,提高生成结构质量并减少推理时间。
- EMNLPDiffS2UT:一种保持语义的无文本直接语音翻译扩散模型
通过在连续语音表示空间中应用向前扩散,同时在离散语音单位空间中应用向后扩散,我们提出了一种新的扩散模型,以此在扩散过程中保留了连续语音表示空间的语义结构,并整合了连续和离散扩散模型。在无文本直接语音翻译任务上进行了大量实验,该方法与计算密集 - 基于评分的生成模型的高保真图像压缩
本文通过使用扩散生成模型,将自编码器与基于分数的解码器相结合的简单但理论上有动机的两阶段方法,实现了在给定比特率时提高视觉质量,并在 FID 分数上跑赢了最先进的方法 PO-ELIC 和 HiFiC。
- 扩散模型生成如画家一样的图像:线条先行,细节随后的分析理论
本文针对扩散生成模型如何将纯噪声转化为有意义的图像进行了研究,提出了基于高维景观的动力学建模方法,揭示了不同训练数据中的场景元素所呈现的具体细节先后顺序,并提出了一种生成可解释图像变化的新方法。
- 基于得分的生成模型的几何学
该研究从几何角度探讨了基于得分模型的扩散生成模型,证明了加噪声和从噪声生成的正向和反向过程在概率测度空间中是 Wasserstein 梯度流。同时给出了附加传统得分模型的投影步骤的直观几何解决方案,提出了减少采样时间的方法。
- UPainting: 统一的跨模态引导文本到图像扩散生成
本文介绍了 UPainting 这个同时适用于简单和复杂场景图像生成的模型,利用预训练的 Transformer 语言模型作为文本编码器,结合预训练的图像 - 文本匹配模型进行跨模态引导,提高了生成图像的样本保真度和图像 - 文本对齐程度。 - 高斯扩散下的有损压缩
本研究提出了一种基于无条件扩散生成模型的新型有损压缩方法 DiffC,该方法仅利用受高斯噪声污染的像素的有效通信来限制所需传输信息,具有压缩比 HiFiC 更高的性能表现,并提供流式解码支持,并进一步分析了其性能和一些理论界限。