行为优化的图像生成
条件图像生成的推理和评估存在巨大的不一致性。本文提出 ImagenHub,一个一站式库来标准化所有条件图像生成模型的推理和评估,并通过定义七个主要任务、构建统一的推理管道和设计两个人工评估指标来解决这个问题。
Oct, 2023
通过提出的 BootPIG 架构,使用引导图像来指导生成图像的外观,增强了现有的文本到图像生成模型的个性化能力,并通过用户研究证实了 BootPIG 在保持引用对象外观和与文本提示对齐方面的优越性。
Jan, 2024
DreamBench++ 是一个自动化的、与人类对齐的多模态 GPT 模型,通过系统地设计提示,从而在个性化图片生成中达到更高的人类对齐评估,帮助推动社区的创新发现。
Jun, 2024
通过分析和识别现有生成模型所面临的关键挑战并引入人类见解、预训练模型、逻辑规则和世界知识等多种知识源,本文提出了一种知识增强的迭代优化框架用于视觉内容生成,其中引入了知识反馈模块来逐步改进生成过程,从而提高生成内容与用户意图之间的一致性。通过初步结果展示了所提框架的有效性,突显了知识增强型生成模型在意图一致内容生成方面的潜力。
May, 2024
提出了一种新的 text-to-image 模型的个性化方法,该方法能够通过少量输入的图像,fine-tune 预训练的 text-to-image 模型,使其能够将唯一标识符绑定到特定主题上,并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。
Aug, 2022
通过提出 Bongard-LOGO 基准来评估人类概念学习和推理,我们展示了先前方法的不足之处,并讨论了适用于解决此类基准的一般视觉推理架构的研究方向。
Oct, 2020
随着生成模型的能力增长,人工内容检测成为一项越来越重要且困难的任务。本文关注 AI 生成图像(AIGI)检测器的鲁棒性,通过分析基于冻结 CLIP 嵌入的现有最先进方法并展示如何解释它们,我们揭示了各种 AI 生成器生成的图像与真实图像的差异,并提出了两种改进鲁棒性的方法:基于去除嵌入向量的有害成分和基于选择图像编码模型中表现最佳的注意力头。我们的方法在交叉模型转换中将平均超出分布(OOD)分类得分提高了高达 6%。我们还提出了一个用于 AIGI 检测的新数据集,并在评估中使用了该数据集;我们相信这个数据集将有助于推动进一步的研究。数据集和代码已作为补充提供。
Jun, 2024
该论文提出一种名为 LIVE 的方法,利用预训练语言模型和图像生成模型相结合,使得模型可以像人一样通过想象场景帮助写作,该方法通过融合层实现了图像和文本的结合,并使用 CLIP 来确定文本能否调起想象力,实验表明该方法的有效性。
May, 2023
提出了一种单一的文本到图像生成和操纵的流程,其中在我们的流程的第一部分,介绍了 TextStyleGAN 这个在文本上进行训练的模型;第二部分使用预训练的 TextStyleGAN 权重进行语义面部图像操纵,并通过在潜空间中找到语义方向来完成。我们展示了该方法可以用于广泛的面部图像属性操纵,并介绍了 CelebTD-HQ 数据集作为 CelebA-HQ 的扩展,其中包含了人脸及相应的文本描述。
May, 2020