- 时间序列潜在扩散的后稳定性研究
我们分析了隐式扩散在时间序列应用中可能出现的后验坍塌问题,提出了依赖度量的概念,证明了扩散模型中的潜变量在这种情况下失去了对生成过程的控制,并对后验坍塌的原因进行了分析。基于这一分析,我们提出了一个新的框架,解决了这个问题并支持更具表达力的 - 跨注意力的扩散模型作为串扰的归纳倾向
我们提出了一种新的视角和框架,论证了扩散模型与交叉注意力可以作为强大的归纳偏好来促进解缠表示的学习,通过对概念标记的交叉注意力桥接编码器和扩散之间的交互,在基准数据集上不经过额外正则化就实现了卓越的解缠性能,超过了所有之前采用复杂设计的方法 - 快速时序条件下的音频扩散
利用文本提示生成长篇 44.1kHz 立体声音频的计算效率较高,利用条件生成模型、稳定音频技术和潜在变化等方法,可以以较快速度生成出拥有结构和立体声音效的音乐。
- 拓扑感知的潜在扩散用于 3D 形状生成
我们介绍了一个新的生成模型,它将潜在扩散与持续同调相结合,以创建具有高多样性的 3D 形状,重点关注它们的拓扑特征。
- 一种简单的潜隐扩散方法用于全景分割和蒙版修复
该论文介绍了使用稳定的扩散和潜在扩散方法进行全景分割的架构,它通过训练浅层自动编码器和扩散模型实现了对分割掩模的操控,呈现了全景分割和遮罩修复的有 promising 结果。
- aMUSEd:一个开放的 MUSE 复现
通过实验证明 MUSEd 的有效性,它是一种开源、轻量级的遮蔽图像模型(MIM),用于文本到图像的生成,相对于潜在扩散(latent diffusion)方法,MIM 在推理步骤上更少且更具可解释性,同时可以通过仅有一张图像进行附加风格的微 - 情感驱动的 3D 人体动画通过解缠的潜在扩散
AMUSE 是一种基于潜在扩散的情感驱动人体动画模型,通过将语音驱动的内容与另一个语音序列的情绪和风格相结合,从而直接从语音合成具有表达情绪和风格控制的 3D 人体动作序列。
- 康定斯基 3.0 技术报告
Kandinsky 3.0 是一种基于潜在扩散的大规模文本到图像生成模型,通过两倍更大的 U-Net 主干网、十倍更大的文本编码器和去除扩散映射等关键组件的改进,取得了与其他模型相比更高质量和真实感的图像生成效果。
- 癌症网 PCa-Gen:通过解剖条件控制的潜在扩散生成逼真的前列腺扩散加权成像数据
通过引入一种解剖条件控制的潜在扩散策略,我们探索了潜在扩散对于生成逼真的前列腺 DWI 数据的有效性。经验结果表明,我们提出的 Cancer-Net PCa-Gen 策略通过可控的肿瘤位置和更好的解剖和纹理保真度提高了多样性前列腺图像的合成 - FusionFrames:文本到视频生成流程的高效架构方案
本研究提出了一种基于文本到图像扩散模型的新的两阶段潜在扩散文本到视频生成架构,该架构对关键帧合成和插值帧生成进行建模,并通过比较不同的时间条件方法和视频解码方案进行实验评估,最终在视频生成质量方面取得了较好的结果。
- AutoDIR:自动全能图像修复与潜在扩散
本文提出了一种全方位图像修复框架,通过自动检测和处理多种未知的图像退化,实现了对复杂实际图像修复问题的解决。该框架利用盲图像质量评估模块进行未知主要图像退化类型的自动检测和识别,然后使用全方位图像编辑模块进行多种退化图像修复,并通过结构校正 - ICCV从触觉生成视觉场景
通过最新的潜在扩散技术,我们提出了一种从触觉信号合成图像的模型,并在多个视觉触觉合成任务中取得了显著的优势,包括所谓的触觉驱动风格化问题以及从触觉生成图像而无需其他信息源的首创性研究。
- 离线强化学习中的潜在扩散推理
该论文介绍了一种离线强化学习的方法,使用压缩的潜在技能建模支援轨迹序列,避免外推错误,并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息,改进了信用分配,并促进了更快的奖励传播。该 - VideoGen:一种参考引导的潜在扩散方法用于高清文本到视频生成
使用参考引导的潜在扩散方法,VideoGen 提供了一种生成高清晰度、高帧保真度和强时间一致性的视频的方法,通过将文本转换为视频生成。
- CommonScenes:使用场景图生成常识化的 3D 室内场景
本文提出了一种基于场景图的全生成模型 CommonScenes,旨在通过抽象场景上下文,生成对应的可控三维场景。该模型通过两个分支的预测和生成实现对全局场景 - 对象及局部对象 - 对象关系的捕捉,同时保留形态多样性,从而在生成一致性、品质 - DiffVoice: 基于潜在扩散的文本到语音
本文提出 DiffVoice,一种基于潜在扩散的文本转语音模型。在 LJSpeech 和 LibriTTS 数据集上的主观评价表明,我们的方法在自然度方面优于当前公开可用的最佳系统,并且通过采用最近的生成逆问题解决算法,DiffVoice