GazeFusion: 引导显著性的图像生成

Mar, 2024

GazeFusion: Saliency-guided Image Generation

Yunxiang Zhang, Nan Wu, Connor Z. Lin, Gordon Wetzstein, Qi Sun

TL;DR通过注意力引导的框架结合视觉注意力的数据先验，将扩散模型调整为生成吸引观众注意力的图像，提高图像生成技术的实用性和人机交互设计的应用。

Abstract

diffusion models offer unprecedented image generation capabilities given just a text prompt. While emerging control mechanisms have enabled users to specify the desired spatial arrangements of the generated conte

diffusion models image generation visual attention saliency-guided framework viewer attention distribution

发现论文，激发创造

一种基于 LSTM 的显著性关注模型用于预测人眼注视点

提出了一种基于卷积 LSTM 的新型模型，结合神经注意机制，可预测准确的显著图，并学习一组使用高斯函数生成的先验图，这种模型在公共显著性预测数据集上表现优于现有技术，可以克服人眼注视典型的中心偏差，并且对于不同的情境展现了关键组件各自的贡献。

Nov, 2016

提升文本到图像合成中的语义保真度：扩散模型中的注意力调节

我们提出了一种注意力调节方法，通过实时优化来对齐注意力图与输入文本提示，从而解决扩散模型中对某些令牌过分关注而导致语义逼真度下降的问题。在各种数据集、评估指标和扩散模型上进行了实验比较，结果表明我们的方法在减少计算开销的同时，始终优于其他基准方法，生成的图像更加忠实地反映了所需的概念。

Mar, 2024

利用有损扩散模型增强图像布局控制

扩散模型为一种强大的生成模型，能够从纯噪声中生成高质量的图像。条件扩散模型通过简单的文本提示能够指定所需图像的内容，然而，仅仅基于文本提示无法对最终图像的构成和布局进行细致的控制，而这取决于初始噪声分布。本文探讨了两种改进方法，并演示了当这两种方法结合使用时可以获得更好的性能。

May, 2024

利用扩散模型的时空关注力实现高保真度文本到图像合成

本文提出了一种新的文本到图像算法，通过在扩散模型中加入显式的空间 - 时间交叉注意力控制，利用布局预测器和空间注意力控制相结合，实现优化组合权重的方式，从而生成与文本更高保真的图像。

Apr, 2023

DiffGaze: 360 度图像上连续注视序列生成的扩散模型

DiffGaze 是一种基于条件评分的去噪扩散模型，用于在 360 度图像上生成逼真而多样化的连续人类注视序列。该方法在生成人类注视时考虑了时间和空间相关性，并在注视序列的生成、扫描路径预测和显著性预测任务上表现出优于现有方法的性能。

Mar, 2024

针对空间控制文本到图像生成的遮蔽注意力扩散引导

用不需要额外的训练的方法，通过交叉关注地图和掩膜引导实现文本到图像生成的空间控制。实验结果表明，所提出的方法在定性和定量上比基线方法实现了更准确的空间控制。

Aug, 2023

SalGaze: 使用视觉显著性个性化注视点估计

提出 SalGaze，一种利用视觉内容中的显著性信息，无需显式用户校准，可透明地适应用户注视估计算法的框架，能够使用与标准点校准数据不同的显式视频显著性校准数据的统一框架，优于现有方法，精度提高了 24%。

Oct, 2019

预测图形设计文档中的视觉注意力

我们提出了一种用于预测图形设计文档中视觉注意力的模型，该模型是首个尝试使用基于深度学习的模型预测文档区域被凝视的空间注意力和动态时间顺序。通过提出的两阶段模型，我们能够预测图形设计文档中的动态注意力，并在眼动实验中显示出比现有模型更好的性能。

Jul, 2024

从文本到掩码：使用文本 - 图像扩散模型的注意力定位实体

本研究揭示了扩散模型中隐藏的丰富多模态知识的一种新方法，用于分割任务。

Sep, 2023

GASP：门控注意力用于显著性预测

本研究提出了一种神经模型，旨在整合社交线索并权衡它们的影响，通过探索不同的融合技术，引入两个子网络以将注意力引导到相关的刺激物上，结果表明动态显著性预测不考虑社交线索的准确性有所提高。

Jun, 2022