AID:文本图像扩散的注意力插值
通过 DenseDiffusion 方法,我们能够在不需额外微调或数据集的情况下,有效改善给定密集描述的图像生成性能,并且达到与专门训练有场景布局条件的模型相似的视觉效果。
Aug, 2023
基于文本和初始帧,我们引入多模态大型语言模型 (MLLM) 来预测未来的视频状态。通过设计双查询 Transformer (DQFormer) 架构,并利用长短期时间适配器和空间适配器来快速转换通用视频扩散模型,我们的方法在四个数据集上明显优于现有技术,证明了其在不同领域的有效性。
Jun, 2024
本文提出了一种新的文本到图像算法,通过在扩散模型中加入显式的空间 - 时间交叉注意力控制,利用布局预测器和空间注意力控制相结合,实现优化组合权重的方式,从而生成与文本更高保真的图像。
Apr, 2023
我们提出了一种注意力调节方法,通过实时优化来对齐注意力图与输入文本提示,从而解决扩散模型中对某些令牌过分关注而导致语义逼真度下降的问题。在各种数据集、评估指标和扩散模型上进行了实验比较,结果表明我们的方法在减少计算开销的同时,始终优于其他基准方法,生成的图像更加忠实地反映了所需的概念。
Mar, 2024
用不需要额外的训练的方法,通过交叉关注地图和掩膜引导实现文本到图像生成的空间控制。实验结果表明,所提出的方法在定性和定量上比基线方法实现了更准确的空间控制。
Aug, 2023
通过注意力机制的调节,我们提出了一种用于扩散模型的无需训练的逐阶段聚焦机制,旨在解决多实体和属性的文本提示处理中的注意力分布不均问题。我们的实验结果证明,我们的模型在各种情况下都能够以最小的计算成本实现更好的图像与文本的对齐。
Apr, 2024
本研究提出了两个新的损失函数,用于在采样过程中根据给定的布局重新聚焦注意力图,以解决在多个对象、属性和空间组合都涉及到的情况下现有文本到图像综合方法无法精确遵循文本提示的问题,并通过 Large Language Models 合成的布局在 DrawBench 和 HRS 基准测试中进行了全面实验,证明了我们提出的方法可以轻松有效地集成到现有的文本到图像方法中,并始终提高其生成图像与文本提示之间的对齐度。
Jun, 2023