利用合成标题改进图像文本生成

Jun, 2024

Improving Text Generation on Images with Synthetic Captions

Jun Young Koh, Sang Hyun Park, Joy Song

TL;DR通过使用 SDXL，我们提出一种低成本的微调技术来改善不同情况下文本生成的准确性，并通过将随机字符添加到原始数据集中来提高模型在生成良好形式视觉文本方面的性能。

Abstract

The recent emergence of latent diffusion models such as sdxl and SD 1.5 has shown significant capability in generating highly detailed and realistic images. Despite their remarkable ability to produce images, gen

latent diffusion models sdxl text generation fine-tuning approach visual text

发现论文，激发创造

提高人脸生成质量及配套使用合成字幕

通过引入一种无需训练的流程，从人脸图像生成真实的外貌描述，进而改进了文本到图像扩散模型的能力，并提高了其遵循给定提示的能力。

May, 2024

使用扩散模型增强场景文本检测器的真实文本图像合成

通过扩充背景与前景文字的整合，Diffusion Model based Text Generator (DiffText) 创造了一种能生成真实文本图像并优化文本探测器性能的新型合成数据集方法。

Nov, 2023

多元化训练，不是微调：使用合成图像扩大视觉识别训练规模

通过在大型语言模型和 CLIP 的辅助下，使用生成模型生成合成训练图像来解决类名的歧义性、缺乏多样性的问题，并利用域适应技术和辅助批归一化来减轻领域偏移，以更好地提升模型识别性能。

Dec, 2023

Synth$^2$: 用合成标题和图像嵌入提升视觉 - 语言模型

我们提出了一种利用大语言模型（LLM）和图像生成模型的优点来创建合成图像 - 文本对的新方法，以用于视觉语言模型（VLM）的高效训练。通过预训练一个文本到图像模型来合成由 LLM 生成的图像嵌入，我们的方法能够用合成数据训练出仅需使用人工标注数据一小部分的 VLM，并在图像字幕任务中展现出相当的性能。此研究为生成大规模、可定制的图像数据集引入了一项有前景的技术，从而提升了 VLM 性能，拓展了其在各个领域中的适用性，并改善了数据效率和资源利用。

Mar, 2024

SDXL：提高高分辨率图像合成的潜在扩散模型

SDXL 是一种潜在扩散模型，用于文本到图像的合成，其使用更大的 UNet 骨干网络以及多重新颖的调制方式和改进模型，且其结果竞争力与黑箱最先进的图像生成器相比具有显著提高。

Jul, 2023

寻找咒语：通过提示工程实现精确的文本到图像扩散合成

通过 prompt 学习，我们提出了一种学习扩散模型适当文本描述的框架，通过利用预训练扩散模型导出的质量指导和语义指导，我们的方法可以有效地学习提示，从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析，验证了所提方法的有效性。

Jan, 2024

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

应用扩散模型进行图像字幕的多模态数据增强

本研究提出了一种基于多模态数据增强技术的图像字幕生成方法，旨在解决图像字幕对齐困难的问题。实验证明，本方法可以通过高质量生成图像 - 字幕对来扩充训练数据集，从而提高模型的训练效率和预测准确性。

May, 2023

扩散模型生成的合成数据提升 ImageNet 分类准确性

本研究使用大规模的文本到图像扩散模型对分类条件模型进行微调，进而在 ImageNet 分类准确性得分上实现了显著的提升，证明了利用自然图像模型进行生成数据增强的可行性。

Apr, 2023