ICLRFeb, 2024

跨模态语境扩散模型的文本导向视觉生成与编辑

TL;DR我们提出了一种新颖而通用的上下文扩散模型 (ContextDiff),通过将文本条件与视觉样本之间的交互和对齐引入前向和后向过程中,将上下文传播到这两个过程的所有时间步,从而促进跨模态条件建模,在文本到图像生成和文本到视频编辑的两个挑战性任务中,我们的 ContextDiff 实现了新的最先进性能,通过定量和定性评估明显增强了文本条件与生成样本之间的语义对齐。