精确物体数量的文本到图像生成

Jun, 2024

Make It Count: Text-to-Image Generation with an Accurate Number of Objects

Lital Binyamin, Yoad Tewel, Hilit Segev, Eran Hirsch, Royi Rassin...

TL;DR通过分离并计算对象的实例以及修复缺失对象的形状和位置，本文提出了一种名为 CountGen 的模型，该模型在生成图像时能够准确控制对象的数量。

Abstract

Despite the unprecedented success of text-to-image diffusion models, controlling the number of depicted objects using text is surprisingly hard. This is important for various applications from technical documents, to children's books to illustrating cooking recipes. Generating object-c

text-to-image diffusion models object-correct counts generative model layout countgen

发现论文，激发创造

高保真文本图像合成计数指导

本研究提出了一种方法来改善文本到图像扩散模型，使其能够准确生成输入提示中所指定的物体数量，方法包括采用计数网络和引入注意力地图引导来获得物体的高保真度掩膜并通过计算梯度产生每个物体的去噪过程引导。

Jun, 2023

语义生成增强在少样本计数中的应用

通过使用合成数据和多样化生成策略，本研究探讨了合成数据对于少样本计数问题中的作用，并显示其显著改进了两种最近的高性能少样本计数模型在 FSC147 和 CARPK 数据集上的计数准确性。

Oct, 2023

AFreeCA：无需标注的全能计数

利用文本到图像的潜在扩散模型 (LDMs)，本研究介绍了一种无监督的排序方法，通过借助生成的计数数据，对任意类型的对象进行可靠计数，该方法优于其他无监督和少样本方法，不受特定对象类别计数数据的限制。

Mar, 2024

CLIP-Count: 基于文本引导的零样本物体计数

本研究提出了一种新的技术 CLIP-Count，利用预处理好的图像与文本对齐知识，在零样本的情况下，估计开放词汇对象的密度图，用于类无关物体计数，并在 FSC-147、CARPK 和 ShanghaiTech 人群计数数据集上进行了广泛的实验，结果表明我们的方法实现了零样本物体计数的最高精度和泛化性能。

May, 2023

基于扩散的数据增强用于目标计数问题

使用扩散模型生成的合成数据对深度学习方法在人群计数方面进行增强，减小了真实数据有限导致的过拟合问题，该方法在多个数据集上表现出了显著的性能提升。

Jan, 2024

CounTR: 基于 Transformer 的通用视觉计数

本研究提出了 Counting Transformer (CounTR) 用于实现对任意语义类别的目标进行计数，并采用两阶段的训练策略进行无监督预训练和有监督微调，通过综合评估获得了当前最先进的零样本和少样本计数结果，并使用大规模计数基准进行了彻底的消融研究。

Aug, 2022

Count-ception: 全卷积冗余计数

本文提出一种使用深度神经网络的方法，对数字图像中的对象进行自动计数和定位，相对于现有方法，其平均误差率有 20% 的相对改进。

Mar, 2017

在任何场景中生成任何物体

我们提出了一种简单高效的数据增强训练策略，通过插入适配器层来引导扩散模型仅专注于对象身份，使得我们的模型具备控制每个生成个性化对象的位置和大小的能力，并提出了区域引导抽样技术来保持生成图像的质量和保真度。

Jun, 2023

学习数数

该研究针对视觉物体计数问题，提出了一种基于少样本回归任务的方法，同时也介绍了一种新的适应策略和数据集以供模型训练和评估，并证明该方法在性能上优于现有的物体识别和计数方法。

Apr, 2021

无需训练的位置感知文本到图像合成

本文提出了一种新的交互式图像生成方案，以定位细粒度为目标，评价了生成模型控制位置的能力，并在图像质量和控制能力方面均表现出超过最先进方法的效果。

Apr, 2023