文盲 DALL-E 学习创作
使用文本生成图像的方法已显著提高了生成图像建模的状态,通过结合自然语言界面和空间控制,在本文中,我们考虑了与图像画布上特定位置对象相关的文本生成图像的问题,并提出了 ZestGuide,这是一种零 - shot 分割指导方法,可插入预先训练的文本到图像扩散模型中,我们的实验结果表明,在精准对齐所需的输入分割的情况下,与使用相应分割进行训练的组件相比,提高了图像质量,而在 COCO 数据集上,我们的结果比 Paint with Words 更好。
Jun, 2023
本文介绍了一种基于 transformer 的 autoregressive 的文本 - 图像生成方法,其与以往的一些领域特定模型相比,具有更好的尺度和零样本表现。
Feb, 2021
本文提出了一种基于大规模文本到图像扩散模型的零样本开放词库分割方法,通过考虑采样的图像的背景来更好地定位对象并直接分割背景,并证明该方法可以在多个基准测试中表现出色,在 Pascal VOC 基准测试上领先了超过 10%。
Jun, 2023
提出一个两阶段模型,先用 prior 生成 CLIP 图像嵌入,再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性,并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用自回归和扩散模型作为 prior,发现后者更加高效且产生的样本更优。
Apr, 2022
我们提出了 CompAgent,这是一种无需训练的组合文本到图像生成方法,核心是一个大型语言模型代理。我们的方法在复杂的文本提示下能够保持对图像的可控性,尤其是在保留对象属性和关系方面,通过先将文本提示分解成独立的对象、属性和场景布局,并引入验证和人类反馈机制来进一步校正属性错误和改进图像生成。
Jan, 2024
本文利用预处理语言模型进行通用领域训练,使用由维基百科构建的 WikiFluent 数据集,在 WebNLG 和 E2E 数据集上进行实验证明,使用单个项目描述生成 D2T 是可行的,且可以从 RDF 三元组中完成零 - shot D2T 生成。
Mar, 2022
通过使用文本到图像合成框架(如 DALL-E、稳定扩散等),我们提出了一种新的范式,以自动产生具有准确标签的训练数据。该方法将训练数据生成分解为前景物体生成和上下文一致的背景生成部分,并演示了在五个物体检测和分割数据集上使用我们方法生成的合成数据用于训练可以产生与使用真实数据训练的模型性能相媲美甚至更好的目标检测器。
Sep, 2023
该论文提出了一种简单的、无需训练的框架,通过整合文本理解和图像生成,解决了在生成视觉指令中保持物体的一致性和平滑状态转换的问题,实验证明该方法可以生成一致且具有视觉吸引力的指令。
Jun, 2024
通过研究基于组合性失败模式,我们发现文本到图像生成模型中 CLIP 文本编码器的文本条件不完备是无法生成高保真组合场景的主要原因,并提出仅通过在 CLIP 表示空间上学习简单的线性投影可以实现最佳组合性改进,同时不降低模型的 FID 分数。
Jun, 2024
本文提出了一种在仅有图像数据集的情况下预训练文本到图像生成模型的新方法,通过检索和优化过程综合生成伪文本特征,可以灵活应用于各种情境和模型,并在实验中表现出显著的效果,GAN 模型在完全监督的情况下得到了 6.78 的 FID,是 GAN 最新的 SoTA 结果。
Oct, 2022