该研究探索了 DALL-E-2 合成图像的照明一致性,以确定基于物理学的取证分析是否对检测这种新兴合成媒体有效,该媒体是由生成对抗网络和文本绘制合成引擎合成的。
Jul, 2022
对多模态变压器语言模型和扩散模型等文本到图像模型进行了视觉推理能力和社会偏见的调查,提出 PaintSkills 工具集进行测量评估,发现最新的文本到图像模型在目标计数和空间关系理解技能上的性能与上限准确性之间存在较大差距,并且其在性别和肤色方面的偏见对其表现产生了影响。
Feb, 2022
DALL-E 2 生成与输入文本相对应的原创合成图像,并进行了 14 项测试,以评估其常识,推理和理解复杂文本的能力。
Apr, 2022
本文介绍了如何将 DALL-E、GPT-3 和 CLIP 与 CAD 软件集成在 3DALL-E 中,让用户可以根据他们建模的内容构造文本和图像提示。通过与 13 个设计师进行的研究,我们发现设计师们看到了将 3DALL-E 纳入他们的工作流程,并使用文本到图像 AI 技术进行参考图像、渲染、材料和设计考虑的巨大潜力。最后,我们提出了 3DALL-E 如何与现有的生成设计工作流程融合,以及将提示文献作为人工智能设计历史形式的探讨。
Oct, 2022
使用神经生成能力和感知注入技术,本研究提出了一种无需提示的生成方法,使用户能够自动生成个性化的具有自定义艺术风格的画作内容。
Feb, 2024
DreamStyler 是一种新的框架,用于艺术图像合成,具备文本到图像合成和风格转换的能力,通过多阶段的文本嵌入和上下文感知的文本提示来优化图像质量,并具备适应一系列风格参考的灵活性,实验证明其在多种场景下的卓越性能,显示出在艺术产品创作方面的潜在优势。
Sep, 2023
通过神经网络,从文字描述生成一张与特定风格和流派匹配的艺术图片,为手残人士提供一种表达思想和创造的途径。
May, 2022
本研究探讨零样本语义图像绘画的问题。我们提出了一种新的方法,利用实际的文字描述,在合成图像中添加新的语义概念,通过结合最先进的逼真图像生成模型和文本 - 图像语义相似度网络,使用非梯度方法探索潜在空间,通过放松 GAN 的计算来针对特定区域的变化并进行用户研究进行比较。
Mar, 2021
本研究分析了 15,300 个 DALL-E 2 图像,发现其在男性主导领域中低估女性,而在女性主导领域中高估女性,同时揭示了这些图像中的性别偏见,需要采取女性主义干预手段以防止这些带有偏见的 AI 生成图片反馈到媒体生态环境中。
May, 2023
使用可微分渲染和 3D 推理相结合的自回归建模方法,实现了单幅图像的大视角高度一致性生成,比其他方法在视图生成和 3D 一致性方面具有显著的改进。
Aug, 2021