- STAR:基于自回归表示的按尺度文本图像生成
STAR 是一种文本到图像模型,通过采用自回归范式实现,并通过预训练文本编码器提取文本约束的表示,利用交叉注意力层提高生成图像与文本指导的交互作用,借助 2D RoPE 和归一化版本,确保不同尺度上的相对位置的一致解释,并通过超过现有基准的 - CVPR微妙的图像扰动对定制扩散模型造成更高影响
通过观察到交叉注意力层对梯度变化更加敏感,我们提出了一种简单但通用且高效的方法 CAAT,用于有效地欺骗潜在扩散模型 (LDMs)。我们展示了对图像的微小扰动可以显著影响交叉注意力层,从而在定制扩散模型的微调过程中改变文本与图像之间的映射关 - CVPR研究跨注意力对解锁零 - shot 编辑的文本到视频扩散模型的效果
最新的图像和视频扩散模型在内容创作方面取得了显著进展,为定制生成内容提供了大量技术。本文首次研究了跨注意力在零样本视频编辑中的作用,展示了在 T2V 模型中实现对物体形状、位置和运动的控制的潜力。
- 提升文本到图像合成中的语义保真度:扩散模型中的注意力调节
我们提出了一种注意力调节方法,通过实时优化来对齐注意力图与输入文本提示,从而解决扩散模型中对某些令牌过分关注而导致语义逼真度下降的问题。在各种数据集、评估指标和扩散模型上进行了实验比较,结果表明我们的方法在减少计算开销的同时,始终优于其他基 - RECAP:检索增强音频字幕
RECAP 是一种新颖有效的音频字幕系统,通过从数据存储中检索与输入音频类似的其他字幕来生成字幕,并且无需额外的微调即可适用于任何领域。
- 通过类自适应交叉注意力实现语义图像合成
我们设计了一种使用交叉注意力层代替反归一化层进行图像生成条件的新型架构,旨在实现全局和局部风格转换,并保留先进的重建质量。
- 文本到图像扩散模型中的贝叶斯上下文更新能量交叉注意力
本文提出了基于能量的模型框架,该框架可应用于图像生成任务中对文本提示的意义内容进行相应的处理。经过充分实验表明,该方法在处理多概念生成、文本引导的图像修补以及实际和人造图像编辑等各种图像生成任务方面非常有效。
- 基于交叉注意力引导的无需训练的布局控制
通过提示文本控制生成的图像在空间布局方面存在问题,因此我们提出了一种名为布局引导技术的新方法,该方法可以改进模型的交叉注意层,以实现所需的重建方向,并成功进行了定量和定性的实验验证与扩展。
- ICLR无需训练的结构扩散引导的组合文本到图像合成
本文基于扩散模型的可控属性,将语言结构与扩散过程相结合,进一步提高了 T2I 模型的组合能力,特别是更准确的属性绑定和更好的图像组合,这得益于跨注意层的帮助和语言洞察力。
- 跨注意控制的提示到提示图像编辑
该文提出了一种基于文本的图像编辑框架,利用交叉注意力层控制图像布局和文本之间的关系,实现了在不改变原始内容情况下的全局和局部编辑,从而达到高质量的图像合成。
- CVPR使用潜在扩散模型进行高分辨率图像合成
通过在预训练的自编码器的潜在空间中应用扩散模型,引入交叉注意力层到模型体系结构中,以更少的计算要求取得接近最优的性能,实现高分辨率合成,缩小像素级 DMs 对计算资源的需求。