Jun, 2023
高保真文本图像合成计数指导
Counting Guidance for High Fidelity Text-to-Image Synthesis
Wonjun Kang, Kevin Galim, Hyung Il Koo
TL;DR本研究提出了一种方法来改善文本到图像扩散模型,使其能够准确生成输入提示中所指定的物体数量,方法包括采用计数网络和引入注意力地图引导来获得物体的高保真度掩膜并通过计算梯度产生每个物体的去噪过程引导。
Abstract
Recently, the quality and performance of text-to-image generation
significantly advanced due to the impressive results of diffusion models.
However, text-to-image →
发现论文,激发创造
语义生成增强在少样本计数中的应用
通过使用合成数据和多样化生成策略,本研究探讨了合成数据对于少样本计数问题中的作用,并显示其显著改进了两种最近的高性能少样本计数模型在 FSC147 和 CARPK 数据集上的计数准确性。
Oct, 2023
寻找咒语:通过提示工程实现精确的文本到图像扩散合成
通过 prompt 学习,我们提出了一种学习扩散模型适当文本描述的框架,通过利用预训练扩散模型导出的质量指导和语义指导,我们的方法可以有效地学习提示,从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析,验证了所提方法的有效性。
Jan, 2024
CONFORM:高保真文本到图像扩散模型所需的全部是对比度
通过对比背景下处理此问题的新方法,我们有效地展示了我们的方法在处理各种不同类型的文字到图像扩散模型中的对象、特征和背景组合时的多功能性、高效性和灵活性。
Dec, 2023
AFreeCA:无需标注的全能计数
利用文本到图像的潜在扩散模型 (LDMs),本研究介绍了一种无监督的排序方法,通过借助生成的计数数据,对任意类型的对象进行可靠计数,该方法优于其他无监督和少样本方法,不受特定对象类别计数数据的限制。
Mar, 2024
SceneGenie: 基于场景图引导的扩散模型图像合成
本文提出了一种针对扩散模型的新型引导方法,通过边界框和分割映射信息进行推理时间的采样过程,有效提高了文本到图像生成的准确性和分辨率,从而在场景图像生成方面取得了更好的表现和效果,并在公共基准测试中超越了基于场景图像和文本的扩散模型。
Apr, 2023
初尝不成,再试,再试:基于选择的忠实扩散文本到图像生成
本研究证明大型 T2I 扩散模型比通常认为的更加忠实,无需修改生成过程即可生成对复杂提示忠实的图像。在此基础上,提出了一个简单的管道,根据自动评分系统为文本提示生成候选图像,并选择最佳图像,同时保持可比较或更低的计算成本。
May, 2023