高保真文本图像合成计数指导

Jun, 2023

Counting Guidance for High Fidelity Text-to-Image Synthesis

Wonjun Kang, Kevin Galim, Hyung Il Koo

TL;DR本研究提出了一种方法来改善文本到图像扩散模型，使其能够准确生成输入提示中所指定的物体数量，方法包括采用计数网络和引入注意力地图引导来获得物体的高保真度掩膜并通过计算梯度产生每个物体的去噪过程引导。

Abstract

Recently, the quality and performance of text-to-image generation significantly advanced due to the impressive results of diffusion models. However, text-to-image →

text-to-image generation diffusion models object count counting network attention map guidance

发现论文，激发创造

精确物体数量的文本到图像生成

通过分离并计算对象的实例以及修复缺失对象的形状和位置，本文提出了一种名为 CountGen 的模型，该模型在生成图像时能够准确控制对象的数量。

Jun, 2024

语义生成增强在少样本计数中的应用

通过使用合成数据和多样化生成策略，本研究探讨了合成数据对于少样本计数问题中的作用，并显示其显著改进了两种最近的高性能少样本计数模型在 FSC147 和 CARPK 数据集上的计数准确性。

Oct, 2023

寻找咒语：通过提示工程实现精确的文本到图像扩散合成

通过 prompt 学习，我们提出了一种学习扩散模型适当文本描述的框架，通过利用预训练扩散模型导出的质量指导和语义指导，我们的方法可以有效地学习提示，从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析，验证了所提方法的有效性。

Jan, 2024

CONFORM：高保真文本到图像扩散模型所需的全部是对比度

通过对比背景下处理此问题的新方法，我们有效地展示了我们的方法在处理各种不同类型的文字到图像扩散模型中的对象、特征和背景组合时的多功能性、高效性和灵活性。

Dec, 2023

一种统一的基于提示的计数的定点方法

该研究论文介绍了一种基于提示的计数框架，能够生成关注对象的密度图，并采用固定点推理和对比训练来提高计数准确性。

Mar, 2024

AFreeCA：无需标注的全能计数

利用文本到图像的潜在扩散模型 (LDMs)，本研究介绍了一种无监督的排序方法，通过借助生成的计数数据，对任意类型的对象进行可靠计数，该方法优于其他无监督和少样本方法，不受特定对象类别计数数据的限制。

Mar, 2024

SceneGenie: 基于场景图引导的扩散模型图像合成

本文提出了一种针对扩散模型的新型引导方法，通过边界框和分割映射信息进行推理时间的采样过程，有效提高了文本到图像生成的准确性和分辨率，从而在场景图像生成方面取得了更好的表现和效果，并在公共基准测试中超越了基于场景图像和文本的扩散模型。

Apr, 2023

初尝不成，再试，再试：基于选择的忠实扩散文本到图像生成

本研究证明大型 T2I 扩散模型比通常认为的更加忠实，无需修改生成过程即可生成对复杂提示忠实的图像。在此基础上，提出了一个简单的管道，根据自动评分系统为文本提示生成候选图像，并选择最佳图像，同时保持可比较或更低的计算成本。

May, 2023

基于扩散的数据增强用于目标计数问题

使用扩散模型生成的合成数据对深度学习方法在人群计数方面进行增强，减小了真实数据有限导致的过拟合问题，该方法在多个数据集上表现出了显著的性能提升。

Jan, 2024

提高人脸生成质量及配套使用合成字幕

通过引入一种无需训练的流程，从人脸图像生成真实的外貌描述，进而改进了文本到图像扩散模型的能力，并提高了其遵循给定提示的能力。

May, 2024