通过自动提示优化提升文本到图像的一致性
我们提出了第一个用于黑盒情况下安全 T2I 生成的通用提示优化器,通过构建毒性 - 清洁提示对数据集,设计奖励函数衡量生成图像的毒性和文本对齐度来训练优化器,实验证明我们的方法可以显著减少不当图像的生成概率,并且对文本对齐没有明显影响,同时与其他方法相结合能够取得更好的性能。
Feb, 2024
该研究提出了一种文本生成图像的自适应提示适配框架,该框架使用预训练语言模型进行有监督的微调,再使用强化学习探索更好的提示,通过奖励函数鼓励策略生成更具美感的图像,实验结果表明,自适应提示适配方法优于手动人工优化提示工程,预训练检查点已经公开发布。
Dec, 2022
通过最大化与参考图像的一致性并惩罚与预训练模型的偏差,我们提出了一种通过最小程度微调预训练模型以实现一致性的 T2I 扩散模型的新型训练目标,称为 “直接一致性优化”。我们的方法不仅简单而且显著提高了个性化 T2I 模型的组合能力,并引入了一种控制图像保真度和提示保真度权衡的抽样方法。最后,我们强调必须使用详尽的标题作为参考图像,以进一步增强图像和文本的对齐。我们证明了所提方法在 T2I 主题、风格或两者个性化方面的有效性。生成的示例和代码可在我们的项目页面(this https URL)中找到。
Feb, 2024
人工智能内容生成的革命已经通过快速发展的文本到图像(T2I)扩散模型得到了加速。本研究中,我们通过与最新发布的 DALLE3 集成的 T2I 模型 ChatGPT 重新审视现有的 T2I 系统,并引入新的任务 —— 交互式文本到图像(iT2I),人们可以与 LLM(语言模型)进行交互,以生成、编辑、精炼高质量图片,并通过自然语言进行问题回答。通过引入提示技术和现成的 T2I 模型,我们提出了一种简单的方法来增强 LLMs 在 iT2I 上的能力。我们在不同的 LLMs(如 ChatGPT、LLAMA、Baichuan 和 InternLM)下在多种常见场景中评估了我们的方法,证明我们的方法可以方便、低成本地为任何现有 LLMs 和任何文本到图像模型引入 iT2I 功能,同时对 LLMs 在问题回答和代码生成等方面的固有能力造成很小的降低。我们希望本研究能够引起更多关注,并为提升人机交互的用户体验和下一代 T2I 系统的图像质量提供灵感。
Oct, 2023
最近的文本到图像(T2I)模型取得了巨大的成功,并提出了许多基准来评估其性能和安全性。然而,它们只考虑了显性提示而忽视了隐性提示(暗示目标而没有明确提及)。这些提示可能摆脱安全约束,并对这些模型的应用构成潜在威胁。本文强调了 T2I 模型在隐性提示方面的现状,提出了一个名为 ImplicitBench 的基准,并对隐性提示对流行的 T2I 模型的性能和影响进行了调查。具体而言,我们设计并收集了三个方面的 2,000 多个隐性提示:一般符号、名人隐私和不适宜工作(NSFW)问题,并评估了六个知名 T2I 模型在这些隐性提示下的能力。实验结果表明:(1)T2I 模型能够准确地创建由隐性提示指示的各种目标符号;(2)隐性提示给 T2I 模型带来隐私泄露的潜在风险;(3)大多数评估的 T2I 模型中的 NSFW 约束可以通过隐性提示绕过。我们呼吁 T2I 社区更加关注隐性提示的潜力和风险,并进一步调查隐性提示的能力和影响,倡导一种平衡的方法,既发挥其益处又减轻其风险。
Mar, 2024
对文本到图像模型中的提示准确性进行基准测试,比较评估了多种提示信实度度量,发现当前的视觉语言模型基于向量的度量无法在许多困难的 T2I 模型错误情况下显着优于基于特征的度量。介绍了一套语义错误图形,TS2,用于严格判断给定的提示信实度度量指标是否能够正确地对图像进行排序和区分不同的错误节点,以期通过客观的准则更严格地比较和发展更好的 T2I 期望提示信实度度量指标。
Apr, 2024
通过将特定的相机描述附加到提示中,我们提出了一种简单而安全的提示工程方法 (SSP),通过提供最佳相机描述来改进图像生成质量。实验证明,SSP 相比其他方法提高了平均 16% 的语义一致性和 48.9% 的安全性指标。
Jan, 2024
最近,大型语言模型和生成式人工智能的出现,释放了文本转图像生成系统惊人的能力,以合理的方式将高质量的图像综合到给定的参考文本中。我们进行了第一次大规模的记录,这些记录由多个文本到图像生成系统收集。我们的研究发现表示用户输入的文本与生成模型的训练数据之间存在很大的差距,并建议我们如何提高这些系统的性能。
Mar, 2023