提出了一种基于卷积 LSTM 的新型模型,结合神经注意机制,可预测准确的显著图,并学习一组使用高斯函数生成的先验图,这种模型在公共显著性预测数据集上表现优于现有技术,可以克服人眼注视典型的中心偏差,并且对于不同的情境展现了关键组件各自的贡献。
Nov, 2016
我们提出了一种注意力调节方法,通过实时优化来对齐注意力图与输入文本提示,从而解决扩散模型中对某些令牌过分关注而导致语义逼真度下降的问题。在各种数据集、评估指标和扩散模型上进行了实验比较,结果表明我们的方法在减少计算开销的同时,始终优于其他基准方法,生成的图像更加忠实地反映了所需的概念。
Mar, 2024
扩散模型为一种强大的生成模型,能够从纯噪声中生成高质量的图像。条件扩散模型通过简单的文本提示能够指定所需图像的内容,然而,仅仅基于文本提示无法对最终图像的构成和布局进行细致的控制,而这取决于初始噪声分布。本文探讨了两种改进方法,并演示了当这两种方法结合使用时可以获得更好的性能。
May, 2024
本文提出了一种新的文本到图像算法,通过在扩散模型中加入显式的空间 - 时间交叉注意力控制,利用布局预测器和空间注意力控制相结合,实现优化组合权重的方式,从而生成与文本更高保真的图像。
Apr, 2023
DiffGaze 是一种基于条件评分的去噪扩散模型,用于在 360 度图像上生成逼真而多样化的连续人类注视序列。该方法在生成人类注视时考虑了时间和空间相关性,并在注视序列的生成、扫描路径预测和显著性预测任务上表现出优于现有方法的性能。
用不需要额外的训练的方法,通过交叉关注地图和掩膜引导实现文本到图像生成的空间控制。实验结果表明,所提出的方法在定性和定量上比基线方法实现了更准确的空间控制。
Aug, 2023
提出 SalGaze,一种利用视觉内容中的显著性信息,无需显式用户校准,可透明地适应用户注视估计算法的框架,能够使用与标准点校准数据不同的显式视频显著性校准数据的统一框架,优于现有方法,精度提高了 24%。
Oct, 2019
我们提出了一种用于预测图形设计文档中视觉注意力的模型,该模型是首个尝试使用基于深度学习的模型预测文档区域被凝视的空间注意力和动态时间顺序。通过提出的两阶段模型,我们能够预测图形设计文档中的动态注意力,并在眼动实验中显示出比现有模型更好的性能。
Jul, 2024
本研究揭示了扩散模型中隐藏的丰富多模态知识的一种新方法,用于分割任务。
Sep, 2023
本研究提出了一种神经模型,旨在整合社交线索并权衡它们的影响,通过探索不同的融合技术,引入两个子网络以将注意力引导到相关的刺激物上,结果表明动态显著性预测不考虑社交线索的准确性有所提高。
Jun, 2022