通过引入一种无需训练的流程,从人脸图像生成真实的外貌描述,进而改进了文本到图像扩散模型的能力,并提高了其遵循给定提示的能力。
May, 2024
通过扩充背景与前景文字的整合,Diffusion Model based Text Generator (DiffText) 创造了一种能生成真实文本图像并优化文本探测器性能的新型合成数据集方法。
Nov, 2023
通过在大型语言模型和 CLIP 的辅助下,使用生成模型生成合成训练图像来解决类名的歧义性、缺乏多样性的问题,并利用域适应技术和辅助批归一化来减轻领域偏移,以更好地提升模型识别性能。
Dec, 2023
我们提出了一种利用大语言模型(LLM)和图像生成模型的优点来创建合成图像 - 文本对的新方法,以用于视觉语言模型(VLM)的高效训练。通过预训练一个文本到图像模型来合成由 LLM 生成的图像嵌入,我们的方法能够用合成数据训练出仅需使用人工标注数据一小部分的 VLM,并在图像字幕任务中展现出相当的性能。此研究为生成大规模、可定制的图像数据集引入了一项有前景的技术,从而提升了 VLM 性能,拓展了其在各个领域中的适用性,并改善了数据效率和资源利用。
Mar, 2024
SDXL 是一种潜在扩散模型,用于文本到图像的合成,其使用更大的 UNet 骨干网络以及多重新颖的调制方式和改进模型,且其结果竞争力与黑箱最先进的图像生成器相比具有显著提高。
Jul, 2023
通过 prompt 学习,我们提出了一种学习扩散模型适当文本描述的框架,通过利用预训练扩散模型导出的质量指导和语义指导,我们的方法可以有效地学习提示,从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析,验证了所提方法的有效性。
Jan, 2024
提出了 Diff-Text,它是一个训练免费的场景文本生成框架,能够以任何语言的文本和场景的文本描述为输入,输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示,实现了场景文本的准确生成,并在文本识别准确性和前景背景融合的自然度方面优于现有方法。
研究使用空间特征和自我关注来实现生成图片结构的微调,并将其用于文本到图像合成中,从而实现图像到图像转换。
Nov, 2022
本研究提出了一种基于多模态数据增强技术的图像字幕生成方法,旨在解决图像字幕对齐困难的问题。实验证明,本方法可以通过高质量生成图像 - 字幕对来扩充训练数据集,从而提高模型的训练效率和预测准确性。
May, 2023
本研究使用大规模的文本到图像扩散模型对分类条件模型进行微调,进而在 ImageNet 分类准确性得分上实现了显著的提升,证明了利用自然图像模型进行生成数据增强的可行性。
Apr, 2023