- 基于扩散的语音增强与带权的生成 - 监督学习损失
通过引入均方误差损失(MSE)来改善扩散训练目标,度量在逆向过程迭代中预测的增强语音与真实干净语音之间的差异,提出了一种增强语音的方法,实验证明其有效性。
- Beta 扩散
引入了 β 扩散的新型生成建模方法,结合去掩码和去噪的技术在有限范围内生成数据;将缩放和平移的贝塔分布与乘法转换结合使用,通过时间来创建正向和反向扩散过程,在任意时间点给定数据条件下维持正向边缘分布和反向条件分布;该方法优化 KL 散度上界 - 基于多平面去噪扩展的微结构二维到三维重建与采样协调
使用扩散型生成模型 (DGMs) 的 2D 到 3D 映射框架 Micro3Diff,使得通过仅需预先训练 DGMs 进行 2D 样本生成,并在生成过程中进行维度扩展的方式实现了对连接切片,保持与原始 2D 图像形态等价的 3D 样本的重建 - 基于扩散的视觉反事实解释 —— 朝向系统化定量评估
最新的视觉反事实解释方法利用深度生成模型的能力合成了高维度图像的新示例,本研究提出了一个系统的、量化的评估框架以及一组最小的指标,探索了最新的基于扩散的生成模型在自然图像分类的反事实解释方面的关键设计选择的效果,并通过产生数千个反事实解释来 - ICML揭示虚假:有效的扩散生成图像检测
本文提出了一种名为 SeDID 的新型检测方法,它利用了扩散模型的特殊属性,即确定性逆和确定性降噪计算误差,分别采用基于统计的 SeDID_Stat 和基于神经网络的 SeDID_NNs,实验证明 SeDID 在应用于扩散模型时优于现有方法 - 滤波引导扩散:针对黑盒扩散模型的快速滤波引导
本研究通过在每个扩散步骤的输入上应用自适应滤波器(不需要任何额外的培训或网络内部特征),提供与最新的基于体系结构依赖方法相竞争的快速和强大的基线,并允许更连续地调整指导强度。除此之外,还可以用作简单的附加组件,以增强其他最先进的 I2I 方 - VidEdit:零样本和空间感知的文本驱动视频编辑
本研究介绍了一种名为 VidEdit 的零镜头文本视频编辑方法,利用扩散模型结合语义分割器和边缘检测器实现了强的时间和空间上的一致性,证明在 DAVIS 数据集上,VidEdit 在语义保真度、图像保存和时间一致性方面优于现有的方法,同时仅 - 潜在动态隐式扩散过程
本文提出了一种名为 LDIDPs 的新型隐式扩散过程潜在动态变量模型,它利用隐式扩散过程对潜在动态过程进行采样,并相应地产生连续观测样本,LDIDPs 成功地在合成和仿真神经解码问题上得到了测试,并展示了其能够在潜在尺寸上准确地学习动态,同 - 通过扩散生成模型优化压缩感知磁共振成像采样模式
这篇研究提出了一种利用预先训练的扩散生成模型优化亚采样压缩感知多线圈磁共振成像的采样方式的学习方法,并证明该方法实现的采样运算符可以在不同的解剖结构、加速因子和模式类型的情况下实现具有竞争力,并且在 2D 模式下具有改进的重建效果。
- 从预训练扩散生成模型中分析任意比例的超分辨率能力
本文提出了一种名为 Diff-SR 的基于预训练 DGMs 的任意尺度超分辨率模型,该模型通过向低分辨率图像注入适量的噪声并计算感知可恢复场(PRF)指标来实现最佳效果,并在实验中证明了它在不同的 ASSR 环境下的卓越性能。
- 扩散模型中负迁移问题的解决
本研究旨在从多任务学习 (MTL) 的角度分析扩散训练,提出了两个观察结果和应对负迁移的方法。我们通过对噪声去除任务进行训练,借助区间聚类将大量任务分为小块,并利用 MTL 方法提高样本质量。
- 扩散模型是否具备视觉和语言推理能力?
通过引入 DiffusionITM 方法并且使用 Generative-Discriminative Evaluation Benchmark 进行 7 复杂的视觉语言任务的评估,我们发现在 CLEVR 和 Winoground 等组成任务 - DDDM-VC: 分离降噪扩散模型与解缠表示及混合先验用于可验证的鲁棒语音转换
本文提出一种基于 DDDMs 和分离表示的生成模型,可以控制每个属性的风格,实现语音属性的解耦和控制,并进一步提出了先验混合的方法用于鲁棒语音风格转换。实验结果表明,我们的方法优于公开的 VC 模型,并提供了鲁棒的生成性能。
- 扩散模型中基于上下文的学习解锁
文章提出了 Prompt Diffusion 这个框架,可以实现基于扩散的生成模型的上下文学习,同时还展示了其在机器视觉中的应用,包括视觉 - 语言任务和文本指导的图像编辑。
- 基于扩散机制的生成模型
这篇文章介绍了一种基于扩散的生成模型,可用于音频和图像信号,并通过逐步像素损坏过程训练神经网络从随机噪声生成图像
- 扩散模型是否容易受到成员推断攻击的威胁?
本文研究了基于扩散的生成模型对成员隐私的攻击风险,提出了一种新的黑盒成员隐私攻击方法 SecMI,并通过对标准扩散模型和文本 - 图像扩散模型等不同数据的实验结果展示其高准确性。
- CVPR实用的即插即用扩散模型
本文提出了一种可行的指导框架,称为实用插播(PPAP),该框架利用参数高效的微调和不需要标记的数据传输来利用多个专家,每个专家都专门针对特定噪音范围并指导扩散的反转过程。通过图像类别有条件的生成实验,证明了该方法可以成功地引导扩散,且小可训 - 构建桥梁:理解和扩展扩散生成模型
本研究重新考虑扩散模型的总体框架,将其视为具有未观察到扩散轨迹的潜在变量模型,并应用于数据不受限制的领域。利用最大似然估计,我们表明模型构建和潜在路径的插补都可以构造扩散桥过程,实现端点的确定值和约束条件,并提供一套系统的研究和工具,进而提 - 变分扩散模型
本文介绍了一种基于扩散的生成模型,并通过优化噪声时间表等带有高效率的方法,使其在标准图像密度估计基准测试中获得最先进的似然。
- 基于扩散生成模型与评分匹配的变分视角
本文通过导出一个变分框架来推导连续时间生成扩散理论,并表明该理论中最小化匹配得分损失等价于最大化该理论内所提出的可逆 SDE 插件的似然度的下限。