关键词diffusion-based generative modeling
搜索结果 - 3
- TALC: 多场景文本到视频生成的时间对齐字幕
我们介绍一种称为 Time-Aligned Captions(TALC)框架的方法,通过增强文本条件机制,使得文本到视频(T2V)模型能够生成符合多场景文本描述的多场景视频,并且在视觉上具有一致性。通过使用 TALC 框架对预训练的 T2V - 固定点扩散模型
我们介绍了一种新颖的方法 ——Fixed Point Diffusion Model(FPDM),它将固定点求解的概念融入了基于扩散的生成模型框架中。通过将隐式固定点求解层嵌入到扩散模型的去噪网络中,我们的方法将扩散过程转化为一系列紧密相关 - 深度网络作为去噪算法:在高维图模型中有效学习扩散模型
利用深度神经网络来近似评分函数的效率在基于扩散的生成建模中进行了研究,我们观察到评分函数可以通过变分推断去噪算法在图模型中得到较好的近似,同时这些算法适用于高效的神经网络表示,通过示例验证了这一观察,并结合离散化误差界限为基于扩散的生成建模