文本表述对图像的视角（不）一致性

Jun, 2022

文本表述对图像的视角（不）一致性

Perspective (In)consistency of Paint by Text

Hany Farid

TL;DR使用 DALL-E-2 的绘画文本综合引擎制作合成图像极具逼真，并可能对照片取证提出新挑战，因此本文对 DALL-E-2 合成图像的透视一致性进行了初步探索，以确定基于几何的鉴定分析是否能检测这种新型合成媒体。

Abstract

Type "a sea otter with a pearl earring by Johannes Vermeer" or "a photo of a teddy bear on a skateboard in Times Square" into OpenAI's dall-e-2 paint-by-text synthesis engine and you will not be disappointed by t

dall-e-2 paint-by-text synthetic images perspective consistency forensic analyses

发现论文，激发创造

文本描述的绘画作品光影不一致性

该研究探索了 DALL-E-2 合成图像的照明一致性，以确定基于物理学的取证分析是否对检测这种新兴合成媒体有效，该媒体是由生成对抗网络和文本绘制合成引擎合成的。

Jul, 2022

DALL-Eval: 探测文本到图像生成模型的推理能力与社会偏见

对多模态变压器语言模型和扩散模型等文本到图像模型进行了视觉推理能力和社会偏见的调查，提出 PaintSkills 工具集进行测量评估，发现最新的文本到图像模型在目标计数和空间关系理解技能上的性能与上限准确性之间存在较大差距，并且其在性别和肤色方面的偏见对其表现产生了影响。

Feb, 2022

DALL-E 2 的初步分析

DALL-E 2 生成与输入文本相对应的原创合成图像，并进行了 14 项测试，以评估其常识，推理和理解复杂文本的能力。

Apr, 2022

3DALL-E：在 3D 设计工作流中集成文本到图像人工智能

本文介绍了如何将 DALL-E、GPT-3 和 CLIP 与 CAD 软件集成在 3DALL-E 中，让用户可以根据他们建模的内容构造文本和图像提示。通过与 13 个设计师进行的研究，我们发现设计师们看到了将 3DALL-E 纳入他们的工作流程，并使用文本到图像 AI 技术进行参考图像、渲染、材料和设计考虑的巨大潜力。最后，我们提出了 3DALL-E 如何与现有的生成设计工作流程融合，以及将提示文献作为人工智能设计历史形式的探讨。

Oct, 2022

基于人类审美偏好的大型文本到图像模型个性化：以康定斯基生成为例

使用神经生成能力和感知注入技术，本研究提出了一种无需提示的生成方法，使用户能够自动生成个性化的具有自定义艺术风格的画作内容。

Feb, 2024

DreamStyler：使用文本到图像扩散模型进行风格反演的绘画

DreamStyler 是一种新的框架，用于艺术图像合成，具备文本到图像合成和风格转换的能力，通过多阶段的文本嵌入和上下文感知的文本提示来优化图像质量，并具备适应一系列风格参考的灵活性，实验证明其在多种场景下的卓越性能，显示出在艺术产品创作方面的潜在优势。

Sep, 2023

文本到艺术图像生成

通过神经网络，从文字描述生成一张与特定风格和流派匹配的艺术图片，为手残人士提供一种表达思想和创造的途径。

May, 2022

用文字描绘

本研究探讨零样本语义图像绘画的问题。我们提出了一种新的方法，利用实际的文字描述，在合成图像中添加新的语义概念，通过结合最先进的逼真图像生成模型和文本 - 图像语义相似度网络，使用非梯度方法探索潜在空间，通过放松 GAN 的计算来针对特定区域的变化并进行用户研究进行比较。

Mar, 2021

笑脸女性下降：审计图像生成 AI 中的代表性和呈现性性别偏见

本研究分析了 15,300 个 DALL-E 2 图像，发现其在男性主导领域中低估女性，而在女性主导领域中高估女性，同时揭示了这些图像中的性别偏见，需要采取女性主义干预手段以防止这些带有偏见的 AI 生成图片反馈到媒体生态环境中。

May, 2023

PixelSynth: 从单张图像生成 3D 一致的体验

使用可微分渲染和 3D 推理相结合的自回归建模方法，实现了单幅图像的大视角高度一致性生成，比其他方法在视图生成和 3D 一致性方面具有显著的改进。

Aug, 2021